突破分辨率極限，字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：突破分辨率極限，字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型

文章來(lái)源：量子位

內(nèi)容字?jǐn)?shù)：3373字

內(nèi)容摘要：克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在連文檔都有大模型了，還是高分辨率、多模態(tài)的那種！不僅能準(zhǔn)確識(shí)別出圖像里的信息，還能結(jié)合用戶需求調(diào)用自己的知識(shí)庫(kù)來(lái)回答問(wèn)題。比如，看到圖中馬里奧的界面，直接就回答出了這是任天堂公司的作品。這款模型由字節(jié)跳動(dòng)和中國(guó)科學(xué)技術(shù)大學(xué)合作研究，于2023年11月24日上傳至arXiv。在此研究中，作者團(tuán)隊(duì)提出DocPedia，一個(gè)統(tǒng)一的高分辨率多模態(tài)文檔大模型DocPedia。在此研究中，作者用一種新的方式解決了現(xiàn)有模型不能解析高分辨文檔圖像的短板。DocPedia分辨率可達(dá)2560×2560，而目前業(yè)內(nèi)先進(jìn)多模態(tài)大模型如LLaVA、MiniGPT-4等處理圖像分辨率上限為336×336，無(wú)法解析高分辨率的文檔圖像。那么，這款模型究竟表現(xiàn)如何，又使用了怎樣的優(yōu)化方式呢？各項(xiàng)測(cè)評(píng)成績(jī)顯著提升在論文中，作者展示了DocPedia高分辨圖文理解的示例，…

原文鏈接：點(diǎn)此閱讀原文：突破分辨率極限，字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型