最長150頁文檔
原標題:多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格
文章來源:量子位
內容字數:7061字
LongDocURL:評估多模態長文檔理解能力的新基準
本文介紹了LongDocURL,一個用于全面評估大型視覺語言模型(LVLMs)多模態長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術-未來生活實驗室團隊合作完成,旨在克服現有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。
LongDocURL 的創新之處
1. 長上下文:LongDocURL 專注于篇幅在 50~150 頁的英文文檔,平均頁數高達 85.6 頁,遠超現有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。
2. 多模態輸入:該基準支持多模態輸入(圖像和文本),能夠更全面地評估模型對文檔圖像和結構信息的理解能力。
3. 細粒度評估:LongDocURL 定義了三個主任務類別(理解、數值推理、跨元素定位)以及 20 個細分子任務,涵蓋了更廣泛的任務類型,例如表格解析、圖表理解和跨元素關系分析。
4. 高質量數據:數據集經過模型自動驗證和人工驗證,確保了數據的準確性和可靠性。
LongDocURL 的挑戰性
LongDocURL 對當前的 LVLMs 構成了巨大的挑戰。在 26 種不同的模型配置下進行的評估顯示,即使是表現最好的 GPT-4o,準確率也僅為 64.5%,勉強及格。其他模型的表現則更加遜色,大部分甚至未及格。
實驗結果與分析
1. 模型性能差異:閉源模型整體性能優于開源模型。在開源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。
2. 多模態 vs. 純文本:LVLM 的性能顯著高于 LLM,這主要是因為純文本輸入在解析過程中丟失了重要的文檔結構信息。
3. 細粒度分析:模型在文本問題上的表現最好,在表格問題上的表現最差,凸顯了文檔結構解析能力的不足。多頁 QA 的準確率高于單頁 QA,但一些強模型在多頁 QA 上的定位任務得分較低,影響了整體表現。
4. 輸入方式消融實驗:實驗表明,截斷圖像輸入優于合并圖像輸入,而使用 Docmind 解析的文本輸入優于 PyMuPDF 解析的文本輸入,這說明保留完整的表格結構信息對模型性能至關重要。
結論
LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現有模型的挑戰性結果表明,未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現,將推動多模態長文檔理解領域的發展,并為構建更強大的文檔理解系統提供重要的參考。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破