突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
關(guān)鍵字:字節(jié)跳動,圖像,模型,分辨率,信息
文章來源:量子位
內(nèi)容字?jǐn)?shù):3373字
內(nèi)容摘要:克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI現(xiàn)在連文檔都有大模型了,還是高分辨率、多模態(tài)的那種!不僅能準(zhǔn)確識別出圖像里的信息,還能結(jié)合用戶需求調(diào)用自己的知識庫來回答問題。比如,看到圖中馬里奧的界面,直接就回答出了這是任天堂公司的作品。這款模型由字節(jié)跳動和中國科學(xué)技術(shù)大學(xué)合作研究,于2023年11月24日上傳至arXiv。在此研究中,作者團(tuán)隊提出DocPedia,一個統(tǒng)一的高分辨率多模態(tài)文檔大模型DocPedia。在此研究中,作者用一種新的方式解決了現(xiàn)有模型不能解析高分辨文檔圖像的短板。DocPedia分辨率可達(dá)2560×2560,而目前業(yè)內(nèi)先進(jìn)多模態(tài)大模型如LLaVA、MiniGPT-4等處理圖像分辨率上限為336×336,無法解析高分辨率的文檔圖像。那么,這款模型究竟表現(xiàn)如何,又使用了怎樣的優(yōu)化方式呢?各項測評成績顯著提升在論文中,作者展示了DocPedia高分辨圖文理解的示例,…
原文鏈接:點此閱讀原文:突破分辨率極限,字節(jié)聯(lián)合中科大提出多模態(tài)文檔大模型
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...