AIGC動態歡迎閱讀
原標題:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視
關鍵字:視覺,詞表,頁面,模型,團隊
文章來源:量子位
內容字數:0字
內容摘要:
Fox團隊 投稿量子位 | 公眾號 QbitAI雖然多模態大模型都能挑西瓜了,但理解復雜文檔方面還是差點意思。
面對文字密集、多欄混排等文檔時往往力不從心,區域級別的細粒度理解,就更是無從談起了。
最近,曠視團隊打造了一支多模態大模型的“點讀筆”——Fox,輕松實現對8頁文檔(中英混合,單欄多欄格式混合的極端場景)的交互式感知理解。
對于信息密集的PDF文檔,Fox支持高可控性的細粒度理解,比如在用戶感興趣區域內進行文字識別、段落翻譯以及頁面內部的圖片內容描述等。
論文中,團隊進一步突破了對于文檔的視覺感知理解的上限,高密度的信息被真正壓縮,LVLM真正地“看”懂圖,才能真正做好、做出能用的文檔多模大模型。
正所謂“一圖勝千言”—— one image token >> one text token。
接下來,看看Fox在實戰中表現如何?
中英混排,單欄多欄組合都不怕對于中英混合、單欄多欄混合的8頁PDF文檔,可實現任意區域的OCR:
下圖左側展示了8頁文檔內跨頁的VQA,右側展示了雙欄中文頁面的前景OCR。
雙欄密集英文頁面的前景OCR:
在頁面內圖片描述方面,Fox能給出文檔內內容
原文鏈接:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox|曠視
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...