阿里7B多模態文檔理解大模型拿下新SOTA｜開源

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：阿里7B多模態文檔理解大模型拿下新SOTA｜開源
關鍵字：文字,圖片,模型,結構,圖表
文章來源：量子位
內容字數：8196字

內容摘要：

mPLUG團隊投稿量子位 | 公眾號 QbitAI多模態文檔理解能力新SOTA！
阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl 1.5，針對高分辨率圖片文字識別、通用文檔結構理解、指令遵循、外部知識引入四大挑戰，提出了一系列解決方案。
話不多說，先來看效果。
復雜結構的圖表一鍵識別轉換為Markdown格式：
不同樣式的圖表都可以：
更細節的文字識別和定位也能輕松搞定：
還能對文檔理解給出詳細解釋：
要知道，“文檔理解”目前是大語言模型實現落地的一個重要場景，市面上有很多輔助文檔閱讀的產品，有的主要通過OCR系統進行文字識別，配合LLM進行文字理解可以達到不錯的文檔理解能力。
不過，由于文檔圖片類別多樣、文字豐富且排版復雜，難以實現圖表、信息圖、網頁等結構復雜圖片的通用理解。
當前爆火的多模態大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強的文檔圖片理解能力，然而開源模型在這個方向上的進展緩慢。
而阿里新研究mPLUG-DocOwl 1.5在10個文檔理解基準上拿下SOTA，5個數據集上提升超過10個點，部分數據集上超過智譜17.3B的C

原文鏈接：阿里7B多模態文檔理解大模型拿下新SOTA｜開源