阿里7B多模態(tài)文檔理解大模型拿下新SOTA|開源
AIGC動態(tài)歡迎閱讀
原標題:阿里7B多模態(tài)文檔理解大模型拿下新SOTA|開源
關(guān)鍵字:文字,圖片,模型,結(jié)構(gòu),圖表
文章來源:量子位
內(nèi)容字數(shù):8196字
內(nèi)容摘要:
mPLUG團隊 投稿量子位 | 公眾號 QbitAI多模態(tài)文檔理解能力新SOTA!
阿里mPLUG團隊發(fā)布最新開源工作mPLUG-DocOwl 1.5,針對高分辨率圖片文字識別、通用文檔結(jié)構(gòu)理解、指令遵循、外部知識引入四大挑戰(zhàn),提出了一系列解決方案。
話不多說,先來看效果。
復(fù)雜結(jié)構(gòu)的圖表一鍵識別轉(zhuǎn)換為Markdown格式:
不同樣式的圖表都可以:
更細節(jié)的文字識別和定位也能輕松搞定:
還能對文檔理解給出詳細解釋:
要知道,“文檔理解”目前是大語言模型實現(xiàn)落地的一個重要場景,市面上有很多輔助文檔閱讀的產(chǎn)品,有的主要通過OCR系統(tǒng)進行文字識別,配合LLM進行文字理解可以達到不錯的文檔理解能力。
不過,由于文檔圖片類別多樣、文字豐富且排版復(fù)雜,難以實現(xiàn)圖表、信息圖、網(wǎng)頁等結(jié)構(gòu)復(fù)雜圖片的通用理解。
當(dāng)前爆火的多模態(tài)大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強的文檔圖片理解能力,然而開源模型在這個方向上的進展緩慢。
而阿里新研究mPLUG-DocOwl 1.5在10個文檔理解基準上拿下SOTA,5個數(shù)據(jù)集上提升超過10個點,部分數(shù)據(jù)集上超過智譜17.3B的C
原文鏈接:阿里7B多模態(tài)文檔理解大模型拿下新SOTA|開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破