mPLUG-DocOwl2

AI工具1年前 (2024)發布 AI工具集

mPLUG-DocOwl 2是一款由阿里巴巴通義實驗室mPLUG團隊研發的多模態大型語言模型，專注于多頁文檔的理解與處理。它通過先進的高分辨率文檔圖像壓縮技術，能夠高效地解讀文檔圖像，而無需依賴傳統的光學字符識別（OCR）技術。mPLUG-DocOwl 2在多頁文檔理解的基準測試中取得了新的最高標準（SOTA），每頁文檔圖像僅消耗324個token，從而顯著降低顯存占用和首包響應時間，提升了處理速度。該模型的訓練分為三個階段：單頁預訓練、多頁預訓練和多任務指令微調，支持對單頁和多頁文檔中復雜問題的理解，包括跨頁內容的關聯和結構解析。

mPLUG-DocOwl2

mPLUG-DocOwl2的主要功能

多頁文檔理解：無需OCR技術，直接從多頁文檔圖像中提取和理解信息。
高分辨率圖像處理：通過高分辨率文檔圖像壓縮模塊，將每頁圖像壓縮至324個視覺token，減少顯存占用并加快響應速度。
多頁問答能力：能夠解答與多頁文檔內容相關的問題，并提供詳細解釋及相關頁碼。
文檔結構解析：解析文檔的層級結構，并以JSON格式輸出，便于后續數據處理與分析。
跨頁內容關聯：理解并關聯多頁文檔中跨頁的內容，從而實現更全面的結構理解。
高效處理：在單個A100-80G GPU上，能夠同時處理多達60頁的高清文檔圖片，顯著提升處理效率。

mPLUG-DocOwl2的技術原理

高分辨率文檔圖像壓縮（High-resolution DocCompressor）：利用低分辨率全局視覺特征作為指導，通過cross-attention機制將高分辨率文檔圖像壓縮為更少的視覺token。
形狀自適應裁剪：根據文檔的形狀和尺寸進行自適應切割，以適應不同頁面的布局需求。
視覺特征提取：通過視覺編碼器（如ViT）提取切片的視覺特征，并通過H-Reducer模塊進行特征合并和維度對齊。
跨注意力機制：在壓縮過程中，使用全局圖特征作為查詢，切片特征作為鍵值對，通過cross-attention層實現特征的有效壓縮。
全局與局部視覺特征結合：結合全局視覺特征（捕捉布局信息）和局部視覺特征（保留文本和圖像細節），實現更精確的文檔理解。