AIGC動態歡迎閱讀
原標題:GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分
關鍵字:模型,問題,信息,能力,內容
文章來源:量子位
內容字數:0字
內容摘要:
YuBo Ma 投稿量子位 | 公眾號 QbitAI圖文并茂的PDF長文檔在日常生活中無處不在。過去人們通常使用OCR,layout detection等方法對PDF長文檔進行解析。但隨著多模態大模型的發展,PDF長文檔的端到端閱讀理解成為了可能。
為了評測多模態大模型在PDF長文檔上的閱讀理解能力,由上海AI Lab領銜提出的MMLongBench-Doc評估基準測試了14個LVLMs(視覺語言大模型)。
評估結果表明:表現最好的GPT-4o在整體F1分數上也只達到了 44.9%。
GPT-4V排名第二,得分30.5%。
除了這兩個模型,其他被評測LVLMs的表現更是要弱于OCR+LLMs形式。
這些結果表明,目前的LVLMs在端到端PDF長文檔閱讀任務上雖然表現出了一定的潛力,但仍然還有很大的提升空間。
135個PDF、1091個問題LVLMs的出現有效促進了文檔理解任務的解決。針對單頁文檔,常見的閉源和開源模型都展示出了相當不錯的表現(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財報、宣傳資料,往往有更多的頁數,許多文檔長度可以達到
原文鏈接:GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...