AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox|曠視
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox|曠視
關(guān)鍵字:視覺,詞表,頁面,模型,團(tuán)隊(duì)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Fox團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI雖然多模態(tài)大模型都能挑西瓜了,但理解復(fù)雜文檔方面還是差點(diǎn)意思。
面對(duì)文字密集、多欄混排等文檔時(shí)往往力不從心,區(qū)域級(jí)別的細(xì)粒度理解,就更是無從談起了。
最近,曠視團(tuán)隊(duì)打造了一支多模態(tài)大模型的“點(diǎn)讀筆”——Fox,輕松實(shí)現(xiàn)對(duì)8頁文檔(中英混合,單欄多欄格式混合的極端場(chǎng)景)的交互式感知理解。
對(duì)于信息密集的PDF文檔,F(xiàn)ox支持高可控性的細(xì)粒度理解,比如在用戶感興趣區(qū)域內(nèi)進(jìn)行文字識(shí)別、段落翻譯以及頁面內(nèi)部的圖片內(nèi)容描述等。
論文中,團(tuán)隊(duì)進(jìn)一步突破了對(duì)于文檔的視覺感知理解的上限,高密度的信息被真正壓縮,LVLM真正地“看”懂圖,才能真正做好、做出能用的文檔多模大模型。
正所謂“一圖勝千言”—— one image token >> one text token。
接下來,看看Fox在實(shí)戰(zhàn)中表現(xiàn)如何?
中英混排,單欄多欄組合都不怕對(duì)于中英混合、單欄多欄混合的8頁P(yáng)DF文檔,可實(shí)現(xiàn)任意區(qū)域的OCR:
下圖左側(cè)展示了8頁文檔內(nèi)跨頁的VQA,右側(cè)展示了雙欄中文頁面的前景OCR。
雙欄密集英文頁面的前景OCR:
在頁面內(nèi)圖片描述方面,F(xiàn)ox能給出文檔內(nèi)內(nèi)容
原文鏈接:AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox|曠視
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破