<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        AIGC動態4個月前發布 量子位
        305 0 0

        最長150頁文檔

        多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        原標題:多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格
        文章來源:量子位
        內容字數:7061字

        LongDocURL:評估多模態長文檔理解能力的新基準

        本文介紹了LongDocURL,一個用于全面評估大型視覺語言模型(LVLMs)多模態長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術-未來生活實驗室團隊合作完成,旨在克服現有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。

        LongDocURL 的創新之處

        1. 長上下文:LongDocURL 專注于篇幅在 50~150 頁的英文文檔,平均頁數高達 85.6 頁,遠超現有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。

        2. 多模態輸入:該基準支持多模態輸入(圖像和文本),能夠更全面地評估模型對文檔圖像和結構信息的理解能力。

        3. 細粒度評估:LongDocURL 定義了三個主任務類別(理解、數值推理、跨元素定位)以及 20 個細分子任務,涵蓋了更廣泛的任務類型,例如表格解析、圖表理解和跨元素關系分析。

        4. 高質量數據:數據集經過模型自動驗證和人工驗證,確保了數據的準確性和可靠性。

        LongDocURL 的挑戰性

        LongDocURL 對當前的 LVLMs 構成了巨大的挑戰。在 26 種不同的模型配置下進行的評估顯示,即使是表現最好的 GPT-4o,準確率也僅為 64.5%,勉強及格。其他模型的表現則更加遜色,大部分甚至未及格。

        實驗結果與分析

        1. 模型性能差異:閉源模型整體性能優于開源模型。在開源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。

        2. 多模態 vs. 純文本:LVLM 的性能顯著高于 LLM,這主要是因為純文本輸入在解析過程中丟失了重要的文檔結構信息。

        3. 細粒度分析:模型在文本問題上的表現最好,在表格問題上的表現最差,凸顯了文檔結構解析能力的不足。多頁 QA 的準確率高于單頁 QA,但一些強模型在多頁 QA 上的定位任務得分較低,影響了整體表現。

        4. 輸入方式消融實驗:實驗表明,截斷圖像輸入優于合并圖像輸入,而使用 Docmind 解析的文本輸入優于 PyMuPDF 解析的文本輸入,這說明保留完整的表格結構信息對模型性能至關重要。

        結論

        LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現有模型的挑戰性結果表明,未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現,將推動多模態長文檔理解領域的發展,并為構建更強大的文檔理解系統提供重要的參考。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲欧美日韩国产精品一区| 中文字幕亚洲精品资源网| 亚洲综合偷自成人网第页色| 2021国内精品久久久久精免费| 亚洲成a人片在线观看无码| 你懂的网址免费国产| 亚洲日韩精品射精日| 中文字幕一区二区免费| 久久久久亚洲av无码专区蜜芽| 大地影院MV在线观看视频免费 | 成人免费av一区二区三区| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 国产av无码专区亚洲国产精品| 一级毛片免费在线观看网站| 亚洲午夜精品久久久久久浪潮| 国产精品午夜免费观看网站 | 亚洲精品福利你懂| 久久久久久久久免费看无码| 亚洲精品无码专区| 亚洲精品乱码久久久久久蜜桃 | 最近国语视频在线观看免费播放| 亚洲AV综合色区无码一区| 99视频在线精品免费| 学生妹亚洲一区二区| 国产一区二区三区无码免费| 一日本道a高清免费播放| 亚洲2022国产成人精品无码区| 无码国产精品一区二区免费式直播 | 亚洲免费在线观看视频| 亚洲精品亚洲人成在线| 亚洲线精品一区二区三区影音先锋 | 亚洲国产精品久久久久秋霞小| 亚洲精品国产日韩无码AV永久免费网 | 青青草原精品国产亚洲av| 免费看国产成年无码AV片| 欧亚一级毛片免费看| 西西人体44rt高清亚洲 | 国产亚洲精品成人AA片新蒲金| 亚洲免费福利视频| 亚洲精品视频免费观看| 亚洲国产精品久久网午夜|