阿里8B模型拿下多頁(yè)文檔理解新SOTA,324個(gè)視覺(jué)token表示一頁(yè),縮減80%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:阿里8B模型拿下多頁(yè)文檔理解新SOTA,324個(gè)視覺(jué)token表示一頁(yè),縮減80%
關(guān)鍵字:模型,圖片,視覺(jué),特征,文字
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI高效多頁(yè)文檔理解,阿里通義實(shí)驗(yàn)室mPLUG團(tuán)隊(duì)拿下新SOTA。
最新多模態(tài)大模型mPLUG-DocOwl 2,僅以324個(gè)視覺(jué)token表示單個(gè)文檔圖片,在多個(gè)多頁(yè)文檔問(wèn)答B(yǎng)enchmark上超越此前SOTA結(jié)果。
并且在A100-80G單卡條件下,做到分辨率為1653×2339的文檔圖片一次性最多支持輸入60頁(yè)!
△單個(gè)A100-80G最多能支持文檔圖片(分辨率=1653×2339)的數(shù)量以及首包時(shí)間
mPLUG-DocOwl是利用多模態(tài)大模型進(jìn)行OCR-free文檔理解的一系列前沿探索工作。
DocOwl 1.0首次提出基于多模態(tài)大模型進(jìn)行文檔理解方面的多任務(wù)指令微調(diào);
UReader首次提出利用切圖的策略來(lái)處理高清文檔圖片,成為目前高清圖片理解的主流方案;
DocOwl 1.5提出統(tǒng)一結(jié)構(gòu)學(xué)習(xí),將多個(gè)bechmark的開(kāi)源效果提升超過(guò)10個(gè)點(diǎn),成為多模態(tài)大模型在文檔理解方面的主要對(duì)比基準(zhǔn)。
隨著文檔圖片的分辨率以及切圖數(shù)量的不斷增加,開(kāi)源多模態(tài)大模型的文檔理解性能有了顯著提升,然而這也導(dǎo)致視覺(jué)特征在大模型解碼時(shí)占用了過(guò)多的視覺(jué)t
原文鏈接:阿里8B模型拿下多頁(yè)文檔理解新SOTA,324個(gè)視覺(jué)token表示一頁(yè),縮減80%
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: