準確率不足20%，GPT-4V/Gemini竟看不懂漫畫！首個圖像序列基準測試開源

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：準確率不足20%，GPT-4V/Gemini竟看不懂漫畫！首個圖像序列基準測試開源
關鍵字：圖像,序列,幻覺,行為,對象
文章來源：新智元
內容字數：9083字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】馬里蘭大合北卡教堂山發布首個專為多模態大語言模型（MLLM）設計的圖像序列的基準測試Mementos，涵蓋了真實世界圖像序列、機器人圖像序列，以及動漫圖像序列，用4761個多樣化圖像序列的集合，全面測試MLLM對碎散圖像序列的推理能力！OpenAI的GPT-4V和谷歌最新的Gemini多模態大語言模型一經推出就得到業界和學界的熱切關注: 一系列工作都從多角度展示了這些多模態大語言模型對視頻的理解能力。人們似乎相信我們離通用人工智能artificial general intelligence (AGI) 又邁進了一大步！
可如果告訴你，GPT-4V連漫畫中的人物行為都會看錯, 試問：元芳,你怎么看？
我們來看看這幅迷你漫畫系列:如果讓生物界最高智能體——人類，也就是讀者朋友來描述, 你大概率會說:
那我們來看看當機器界最高智能體——也就是GPT-4V來看這幅迷你漫畫系列的時候，它會這么描述呢?
GPT-4V作為公認的站在鄙視鏈頂端的機器智能體，居然公然睜眼說瞎話。
還有更離譜的是，就算給GPT-4V實際的生活圖像片段，它也會把一個人上樓梯過程

原文鏈接：準確率不足20%，GPT-4V/Gemini竟看不懂漫畫！首個圖像序列基準測試開源