阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%
關(guān)鍵字：模型,圖片,視覺,特征,文字
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解，阿里通義實(shí)驗(yàn)室mPLUG團(tuán)隊(duì)拿下新SOTA。
最新多模態(tài)大模型mPLUG-DocOwl 2，僅以324個(gè)視覺token表示單個(gè)文檔圖片，在多個(gè)多頁文檔問答B(yǎng)enchmark上超越此前SOTA結(jié)果。
并且在A100-80G單卡條件下，做到分辨率為1653×2339的文檔圖片一次性最多支持輸入60頁！
△單個(gè)A100-80G最多能支持文檔圖片(分辨率=1653×2339)的數(shù)量以及首包時(shí)間
mPLUG-DocOwl是利用多模態(tài)大模型進(jìn)行OCR-free文檔理解的一系列前沿探索工作。
DocOwl 1.0首次提出基于多模態(tài)大模型進(jìn)行文檔理解方面的多任務(wù)指令微調(diào)；
UReader首次提出利用切圖的策略來處理高清文檔圖片，成為目前高清圖片理解的主流方案；
DocOwl 1.5提出統(tǒng)一結(jié)構(gòu)學(xué)習(xí)，將多個(gè)bechmark的開源效果提升超過10個(gè)點(diǎn)，成為多模態(tài)大模型在文檔理解方面的主要對比基準(zhǔn)。
隨著文檔圖片的分辨率以及切圖數(shù)量的不斷增加，開源多模態(tài)大模型的文檔理解性能有了顯著提升，然而這也導(dǎo)致視覺特征在大模型解碼時(shí)占用了過多的視覺t

原文鏈接：阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

# AIGC動態(tài)# 圖片 # 文字 # 模型 # 特征 # 視覺

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

SpaceX再創(chuàng)歷史，人類首次商業(yè)太空行走成就達(dá)成！

實(shí)測 | GPT-o1：學(xué)會了思考，也學(xué)會了偷懶

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

SpaceX再創(chuàng)歷史，人類首次商業(yè)太空行走成就達(dá)成！

實(shí)測 | GPT-o1：學(xué)會了思考，也學(xué)會了偷懶

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

阿里8B模型拿下多頁文檔理解新SOTA，324個(gè)視覺token表示一頁，縮減80%

SpaceX再創(chuàng)歷史，人類首次商業(yè)太空行走成就達(dá)成！

玩虛擬模特？