AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox｜曠視

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox｜曠視
關鍵字：視覺,詞表,頁面,模型,團隊
文章來源：量子位
內容字數：0字

內容摘要：

Fox團隊投稿量子位 | 公眾號 QbitAI雖然多模態大模型都能挑西瓜了，但理解復雜文檔方面還是差點意思。
面對文字密集、多欄混排等文檔時往往力不從心，區域級別的細粒度理解，就更是無從談起了。
最近，曠視團隊打造了一支多模態大模型的“點讀筆”——Fox，輕松實現對8頁文檔（中英混合，單欄多欄格式混合的極端場景）的交互式感知理解。
對于信息密集的PDF文檔，Fox支持高可控性的細粒度理解，比如在用戶感興趣區域內進行文字識別、段落翻譯以及頁面內部的圖片內容描述等。
論文中，團隊進一步突破了對于文檔的視覺感知理解的上限，高密度的信息被真正壓縮，LVLM真正地“看”懂圖，才能真正做好、做出能用的文檔多模大模型。
正所謂“一圖勝千言”—— one image token >> one text token。
接下來，看看Fox在實戰中表現如何？
中英混排，單欄多欄組合都不怕對于中英混合、單欄多欄混合的8頁PDF文檔，可實現任意區域的OCR：
下圖左側展示了8頁文檔內跨頁的VQA，右側展示了雙欄中文頁面的前景OCR。
雙欄密集英文頁面的前景OCR：
在頁面內圖片描述方面，Fox能給出文檔內內容

原文鏈接：AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox｜曠視