<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        AIGC動態(tài)7個月前發(fā)布 量子位
        311 0 0

        最長150頁文檔

        多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        原標題:多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格
        文章來源:量子位
        內(nèi)容字數(shù):7061字

        LongDocURL:評估多模態(tài)長文檔理解能力的新基準

        本文介紹了LongDocURL,一個用于全面評估大型視覺語言模型(LVLMs)多模態(tài)長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術(shù)-未來生活實驗室團隊合作完成,旨在克服現(xiàn)有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。

        LongDocURL 的創(chuàng)新之處

        1. 長上下文:LongDocURL 專注于篇幅在 50~150 頁的英文文檔,平均頁數(shù)高達 85.6 頁,遠超現(xiàn)有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。

        2. 多模態(tài)輸入:該基準支持多模態(tài)輸入(圖像和文本),能夠更全面地評估模型對文檔圖像和結(jié)構(gòu)信息的理解能力。

        3. 細粒度評估:LongDocURL 定義了三個主任務類別(理解、數(shù)值推理、跨元素定位)以及 20 個細分子任務,涵蓋了更廣泛的任務類型,例如表格解析、圖表理解和跨元素關系分析。

        4. 高質(zhì)量數(shù)據(jù):數(shù)據(jù)集經(jīng)過模型自動驗證和人工驗證,確保了數(shù)據(jù)的準確性和可靠性。

        LongDocURL 的挑戰(zhàn)性

        LongDocURL 對當前的 LVLMs 構(gòu)成了巨大的挑戰(zhàn)。在 26 種不同的模型配置下進行的評估顯示,即使是表現(xiàn)最好的 GPT-4o,準確率也僅為 64.5%,勉強及格。其他模型的表現(xiàn)則更加遜色,大部分甚至未及格。

        實驗結(jié)果與分析

        1. 模型性能差異:閉源模型整體性能優(yōu)于開源模型。在開源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。

        2. 多模態(tài) vs. 純文本:LVLM 的性能顯著高于 LLM,這主要是因為純文本輸入在解析過程中丟失了重要的文檔結(jié)構(gòu)信息。

        3. 細粒度分析:模型在文本問題上的表現(xiàn)最好,在表格問題上的表現(xiàn)最差,凸顯了文檔結(jié)構(gòu)解析能力的不足。多頁 QA 的準確率高于單頁 QA,但一些強模型在多頁 QA 上的定位任務得分較低,影響了整體表現(xiàn)。

        4. 輸入方式消融實驗:實驗表明,截斷圖像輸入優(yōu)于合并圖像輸入,而使用 Docmind 解析的文本輸入優(yōu)于 PyMuPDF 解析的文本輸入,這說明保留完整的表格結(jié)構(gòu)信息對模型性能至關重要。

        結(jié)論

        LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現(xiàn)有模型的挑戰(zhàn)性結(jié)果表明,未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現(xiàn),將推動多模態(tài)長文檔理解領域的發(fā)展,并為構(gòu)建更強大的文檔理解系統(tǒng)提供重要的參考。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 综合久久久久久中文字幕亚洲国产国产综合一区首 | 91亚洲精品自在在线观看| 香蕉视频在线观看亚洲| 亚洲精品国产成人专区| 亚洲色成人四虎在线观看| 一级做a爰片久久毛片免费陪 | www.亚洲色图| 久久亚洲中文字幕精品有坂深雪 | 亚洲精品无码国产片| 国产一级婬片A视频免费观看| 91精品国产免费入口| 猫咪社区免费资源在线观看| 亚洲高清视频一视频二视频三| 久久精品国产亚洲AV无码偷窥| 无码囯产精品一区二区免费| 日韩一区二区在线免费观看 | 亚洲午夜精品一级在线播放放| 亚洲精品日韩专区silk| 一级毛片免费播放男男| 成年18网站免费视频网站| 亚洲国产a∨无码中文777| 亚洲国产欧洲综合997久久| 91在线老王精品免费播放| 亚洲一卡二卡三卡| 免费福利在线视频| 亚洲熟女乱综合一区二区| a在线免费观看视频| 亚洲综合另类小说色区色噜噜| 精品亚洲永久免费精品| 亚洲国产高清美女在线观看| 99re6在线视频精品免费| 在线a亚洲v天堂网2018| 在线涩涩免费观看国产精品| 亚洲最大免费视频网| 四虎影在线永久免费四虎地址8848aa| 亚洲精品视频久久| 免费人成视频x8x8入口| 精品亚洲国产成人av| 卡1卡2卡3卡4卡5免费视频| 亚洲国产成人超福利久久精品| 超pen个人视频国产免费观看|