突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
關(guān)鍵字:字節(jié)跳動(dòng),圖像,模型,分辨率,信息
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3373字
內(nèi)容摘要:克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在連文檔都有大模型了,還是高分辨率、多模態(tài)的那種!不僅能準(zhǔn)確識(shí)別出圖像里的信息,還能結(jié)合用戶需求調(diào)用自己的知識(shí)庫(kù)來(lái)回答問(wèn)題。比如,看到圖中馬里奧的界面,直接就回答出了這是任天堂公司的作品。這款模型由字節(jié)跳動(dòng)和中國(guó)科學(xué)技術(shù)大學(xué)合作研究,于2023年11月24日上傳至arXiv。在此研究中,作者團(tuán)隊(duì)提出DocPedia,一個(gè)統(tǒng)一的高分辨率多模態(tài)文檔大模型DocPedia。在此研究中,作者用一種新的方式解決了現(xiàn)有模型不能解析高分辨文檔圖像的短板。DocPedia分辨率可達(dá)2560×2560,而目前業(yè)內(nèi)先進(jìn)多模態(tài)大模型如LLaVA、MiniGPT-4等處理圖像分辨率上限為336×336,無(wú)法解析高分辨率的文檔圖像。那么,這款模型究竟表現(xiàn)如何,又使用了怎樣的優(yōu)化方式呢?各項(xiàng)測(cè)評(píng)成績(jī)顯著提升在論文中,作者展示了DocPedia高分辨圖文理解的示例,…
原文鏈接:點(diǎn)此閱讀原文:突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破