GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分
AIGC動態(tài)歡迎閱讀
原標題:GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分
關鍵字:模型,問題,信息,能力,內(nèi)容
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
YuBo Ma 投稿量子位 | 公眾號 QbitAI圖文并茂的PDF長文檔在日常生活中無處不在。過去人們通常使用OCR,layout detection等方法對PDF長文檔進行解析。但隨著多模態(tài)大模型的發(fā)展,PDF長文檔的端到端閱讀理解成為了可能。
為了評測多模態(tài)大模型在PDF長文檔上的閱讀理解能力,由上海AI Lab領銜提出的MMLongBench-Doc評估基準測試了14個LVLMs(視覺語言大模型)。
評估結果表明:表現(xiàn)最好的GPT-4o在整體F1分數(shù)上也只達到了 44.9%。
GPT-4V排名第二,得分30.5%。
除了這兩個模型,其他被評測LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。
這些結果表明,目前的LVLMs在端到端PDF長文檔閱讀任務上雖然表現(xiàn)出了一定的潛力,但仍然還有很大的提升空間。
135個PDF、1091個問題LVLMs的出現(xiàn)有效促進了文檔理解任務的解決。針對單頁文檔,常見的閉源和開源模型都展示出了相當不錯的表現(xiàn)(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財報、宣傳資料,往往有更多的頁數(shù),許多文檔長度可以達到
原文鏈接:GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...