国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

AIGC動態10個月前發布 量子位
315 0 0

最長150頁文檔

多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

原標題:多模態長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格
文章來源:量子位
內容字數:7061字

LongDocURL:評估多模態長文檔理解能力的新基準

本文介紹了LongDocURL,一個用于全面評估大型視覺語言模型(LVLMs)多模態長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術-未來生活實驗室團隊合作完成,旨在克服現有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。

LongDocURL 的創新之處

1. 長上下文:LongDocURL 專注于篇幅在 50~150 頁的英文文檔,平均頁數高達 85.6 頁,遠超現有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。

2. 多模態輸入:該基準支持多模態輸入(圖像和文本),能夠更全面地評估模型對文檔圖像和結構信息的理解能力。

3. 細粒度評估:LongDocURL 定義了三個主任務類別(理解、數值推理、跨元素定位)以及 20 個細分子任務,涵蓋了更廣泛的任務類型,例如表格解析、圖表理解和跨元素關系分析。

4. 高質量數據:數據集經過模型自動驗證和人工驗證,確保了數據的準確性和可靠性。

LongDocURL 的挑戰性

LongDocURL 對當前的 LVLMs 構成了巨大的挑戰。在 26 種不同的模型配置下進行的評估顯示,即使是表現最好的 GPT-4o,準確率也僅為 64.5%,勉強及格。其他模型的表現則更加遜色,大部分甚至未及格。

實驗結果與分析

1. 模型性能差異:閉源模型整體性能優于開源模型。在開源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。

2. 多模態 vs. 純文本:LVLM 的性能顯著高于 LLM,這主要是因為純文本輸入在解析過程中丟失了重要的文檔結構信息。

3. 細粒度分析:模型在文本問題上的表現最好,在表格問題上的表現最差,凸顯了文檔結構解析能力的不足。多頁 QA 的準確率高于單頁 QA,但一些強模型在多頁 QA 上的定位任務得分較低,影響了整體表現。

4. 輸入方式消融實驗:實驗表明,截斷圖像輸入優于合并圖像輸入,而使用 Docmind 解析的文本輸入優于 PyMuPDF 解析的文本輸入,這說明保留完整的表格結構信息對模型性能至關重要。

結論

LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現有模型的挑戰性結果表明,未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現,將推動多模態長文檔理解領域的發展,并為構建更強大的文檔理解系統提供重要的參考。


聯系作者

文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        亚洲精品免费看| 麻豆成人av在线| 亚洲综合激情网| 不卡的av电影| 最新不卡av在线| 99久久免费视频.com| 国产精品久线在线观看| 成人自拍视频在线| 亚洲一区二区三区精品在线| 91在线你懂得| 麻豆91精品91久久久的内涵| 欧美v国产在线一区二区三区| 丁香桃色午夜亚洲一区二区三区| 欧美激情自拍偷拍| 99在线视频精品| 日本欧美韩国一区三区| 国产欧美一区二区在线观看| 一本一道综合狠狠老| 免费在线视频一区| 亚洲国产一二三| 亚洲国产激情av| 精品国产人成亚洲区| 欧美三级乱人伦电影| 成人免费观看视频| 福利视频网站一区二区三区| 亚洲成人免费观看| 亚洲欧美一区二区久久| 欧美大片免费久久精品三p| 在线观看网站黄不卡| 99久久免费视频.com| 国产精品一区三区| 美女视频黄a大片欧美| 久久er99热精品一区二区| 亚洲成人精品一区二区| 亚洲综合区在线| 夜夜嗨av一区二区三区| 亚洲国产精品天堂| 亚洲综合视频在线| 免费xxxx性欧美18vr| 蜜臂av日日欢夜夜爽一区| 亚洲一区在线观看视频| 日韩精品一卡二卡三卡四卡无卡| 亚洲福利一二三区| 国产主播一区二区| 成人av网站免费| 欧美日韩国产bt| 日韩免费视频一区二区| 国产日韩欧美高清| 亚洲成人精品影院| 国产一区二区精品久久91| 国产成人免费视频精品含羞草妖精| 风间由美性色一区二区三区| 91视频精品在这里| 久久婷婷综合激情| 日韩 欧美一区二区三区| 极品销魂美女一区二区三区| 成人国产精品免费| 精品乱人伦一区二区三区| 国产精品美女久久久久aⅴ| 五月天视频一区| 成人一级视频在线观看| 日韩一区二区视频在线观看| 国产精品福利一区二区三区| 水蜜桃久久夜色精品一区的特点| 丁香激情综合国产| 精品福利二区三区| 麻豆国产一区二区| 69精品人人人人| 偷拍自拍另类欧美| 在线精品视频免费播放| 日本一区二区三区四区在线视频| 丝袜美腿高跟呻吟高潮一区| 色av一区二区| 亚洲国产一二三| 日韩一区二区三区四区| 丝袜亚洲另类欧美综合| 日韩欧美一卡二卡| 国产一区二区三区综合| 精品999久久久| 不卡欧美aaaaa| 亚洲成人综合视频| www一区二区| 成人av电影在线播放| 一区二区成人在线视频| 欧美丝袜丝交足nylons图片| 亚洲午夜电影在线| 亚洲精品在线三区| a美女胸又www黄视频久久| 又紧又大又爽精品一区二区| 欧美亚洲高清一区二区三区不卡| 婷婷夜色潮精品综合在线| 日韩视频不卡中文| 色综合天天综合给合国产| 午夜精品123| 国产精品日韩成人| 欧美成人精品3d动漫h| 99re8在线精品视频免费播放| 天天综合色天天综合色h| 中文一区在线播放| 精品国产一区二区亚洲人成毛片| 99热这里都是精品| 国产在线不卡一区| 精品一区二区三区的国产在线播放| 国产精品全国免费观看高清 | 亚洲视频资源在线| 国产免费成人在线视频| 日韩一级成人av| 欧美日韩国产综合视频在线观看| 91一区二区三区在线观看| 岛国av在线一区| 国产成人免费视频一区| 国产成人精品影视| 麻豆成人久久精品二区三区红| 亚洲一区免费视频| 亚洲国产精品欧美一二99| 亚洲影视资源网| 亚洲国产精品久久艾草纯爱| 亚洲精品大片www| 亚洲一级二级在线| 午夜久久久久久| 麻豆久久久久久| 国产成人免费在线视频| 北岛玲一区二区三区四区| 色香蕉久久蜜桃| 欧美精选一区二区| 欧美一卡二卡在线| 亚洲国产成人一区二区三区| 国产精品麻豆网站| 亚洲午夜影视影院在线观看| 日本欧美肥老太交大片| 国内精品写真在线观看| 国产精品中文字幕欧美| 成人av资源在线观看| 欧美日韩国产123区| 精品国产一区二区精华| 中文字幕亚洲一区二区av在线 | 精品成a人在线观看| 亚洲色图20p| 成人精品视频网站| 久久综合国产精品| 洋洋av久久久久久久一区| 国产成人综合网站| 久久久精品人体av艺术| 亚洲男人都懂的| 99久久伊人精品| 久久视频一区二区| 黄一区二区三区| 欧美日韩国产首页| 亚洲国产色一区| 欧美日韩国产一区二区三区地区| 国产精品青草久久| 99久久精品国产导航| 亚洲乱码日产精品bd| 91丨porny丨蝌蚪视频| 国产精品久久久久桃色tv| 波多野结衣中文一区| 国产欧美一区二区在线| 成人动漫一区二区三区| 国产精品免费看片| av动漫一区二区| 欧美亚一区二区| 久久久91精品国产一区二区三区| 麻豆精品在线视频| 一区二区三区中文免费| 91最新地址在线播放| 美女视频黄免费的久久 | 99久久精品国产观看| 蜜臀av性久久久久蜜臀aⅴ| 午夜电影网亚洲视频| 亚洲成a人片在线观看中文| 午夜精品一区二区三区电影天堂| 亚洲精品一二三| 亚洲成av人**亚洲成av**| 在线综合亚洲欧美在线视频| 91亚洲精华国产精华精华液| 欧美午夜视频网站| 日本精品视频一区二区| 欧美一区二区三区四区久久| 亚洲一本大道在线| 蜜臀av性久久久久av蜜臀妖精| 一卡二卡三卡日韩欧美| 精品亚洲porn| 91最新地址在线播放| 亚洲成人激情自拍| 成人app在线观看| 日本久久一区二区| 国产欧美日韩精品在线| 一区二区成人在线| 欧美日韩成人一区二区| 国产亚洲1区2区3区| 久久精品亚洲麻豆av一区二区| 丝袜美腿亚洲色图| 成人av资源在线| 一区二区三区丝袜| 国产在线播放一区二区三区| 99精品桃花视频在线观看| 久久精品一区蜜桃臀影院| 免费不卡在线视频| 亚洲卡通欧美制服中文| 轻轻草成人在线|