準(zhǔn)確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個圖像序列基準(zhǔn)測試開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:準(zhǔn)確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個圖像序列基準(zhǔn)測試開源
關(guān)鍵字:圖像,序列,幻覺,行為,對象
文章來源:新智元
內(nèi)容字?jǐn)?shù):9083字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】馬里蘭大合北卡教堂山發(fā)布首個專為多模態(tài)大語言模型(MLLM)設(shè)計的圖像序列的基準(zhǔn)測試Mementos,涵蓋了真實世界圖像序列、機器人圖像序列,以及動漫圖像序列,用4761個多樣化圖像序列的集合,全面測試MLLM對碎散圖像序列的推理能力!OpenAI的GPT-4V和谷歌最新的Gemini多模態(tài)大語言模型一經(jīng)推出就得到業(yè)界和學(xué)界的熱切關(guān)注: 一系列工作都從多角度展示了這些多模態(tài)大語言模型對視頻的理解能力。人們似乎相信我們離通用人工智能artificial general intelligence (AGI) 又邁進(jìn)了一大步!
可如果告訴你,GPT-4V連漫畫中的人物行為都會看錯, 試問:元芳,你怎么看?
我們來看看這幅迷你漫畫系列:如果讓生物界最高智能體——人類,也就是讀者朋友來描述, 你大概率會說:
那我們來看看當(dāng)機器界最高智能體——也就是GPT-4V來看這幅迷你漫畫系列的時候,它會這么描述呢?
GPT-4V作為公認(rèn)的站在鄙視鏈頂端的機器智能體,居然公然睜眼說瞎話。
還有更離譜的是,就算給GPT-4V實際的生活圖像片段,它也會把一個人上樓梯過程
原文鏈接:準(zhǔn)確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個圖像序列基準(zhǔn)測試開源
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。