多模態(tài)長文檔新基準來了！20多項任務覆蓋理解推理定位，GPT-4o也就剛及格

最長150頁文檔

原標題：多模態(tài)長文檔新基準來了！20多項任務覆蓋理解推理定位，GPT-4o也就剛及格
文章來源：量子位
內(nèi)容字數(shù)：7061字

LongDocURL：評估多模態(tài)長文檔理解能力的新基準

本文介紹了LongDocURL，一個用于全面評估大型視覺語言模型(LVLMs)多模態(tài)長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術(shù)-未來生活實驗室團隊合作完成，旨在克服現(xiàn)有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。

LongDocURL 的創(chuàng)新之處

1. 長上下文：LongDocURL 專注于篇幅在 50～150 頁的英文文檔，平均頁數(shù)高達 85.6 頁，遠超現(xiàn)有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。

2. 多模態(tài)輸入：該基準支持多模態(tài)輸入（圖像和文本），能夠更全面地評估模型對文檔圖像和結(jié)構(gòu)信息的理解能力。

3. 細粒度評估：LongDocURL 定義了三個主任務類別（理解、數(shù)值推理、跨元素定位）以及 20 個細分子任務，涵蓋了更廣泛的任務類型，例如表格解析、圖表理解和跨元素關系分析。

4. 高質(zhì)量數(shù)據(jù)：數(shù)據(jù)集經(jīng)過模型自動驗證和人工驗證，確保了數(shù)據(jù)的準確性和可靠性。

LongDocURL 的挑戰(zhàn)性

LongDocURL 對當前的 LVLMs 構(gòu)成了巨大的挑戰(zhàn)。在 26 種不同的模型配置下進行的評估顯示，即使是表現(xiàn)最好的 GPT-4o，準確率也僅為 64.5%，勉強及格。其他模型的表現(xiàn)則更加遜色，大部分甚至未及格。

實驗結(jié)果與分析

1. 模型性能差異：閉源模型整體性能優(yōu)于開源模型。在開源模型中，只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。

2. 多模態(tài) vs. 純文本：LVLM 的性能顯著高于 LLM，這主要是因為純文本輸入在解析過程中丟失了重要的文檔結(jié)構(gòu)信息。

3. 細粒度分析：模型在文本問題上的表現(xiàn)最好，在表格問題上的表現(xiàn)最差，凸顯了文檔結(jié)構(gòu)解析能力的不足。多頁 QA 的準確率高于單頁 QA，但一些強模型在多頁 QA 上的定位任務得分較低，影響了整體表現(xiàn)。

4. 輸入方式消融實驗：實驗表明，截斷圖像輸入優(yōu)于合并圖像輸入，而使用 Docmind 解析的文本輸入優(yōu)于 PyMuPDF 解析的文本輸入，這說明保留完整的表格結(jié)構(gòu)信息對模型性能至關重要。

結(jié)論

LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現(xiàn)有模型的挑戰(zhàn)性結(jié)果表明，未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現(xiàn)，將推動多模態(tài)長文檔理解領域的發(fā)展，并為構(gòu)建更強大的文檔理解系統(tǒng)提供重要的參考。