這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試
AIGC動態(tài)歡迎閱讀
原標(biāo)題:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試
關(guān)鍵字:模型,準(zhǔn)確率,多少錢,解讀,測試
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部四大 VLM,竟都在盲人摸象?
讓現(xiàn)在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數(shù)一數(shù)兩條線有幾個交點,他們表現(xiàn)會比人類好嗎?
答案很可能是否定的。
自 GPT-4V 推出以來,視覺語言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。
VLMs 既能看懂畫面,又能用語言來描述看到的東西,并基于這些理解來執(zhí)行復(fù)雜的任務(wù)。比如,給 VLM 模型發(fā)去一張餐桌的圖片,再發(fā)一張菜單的圖片,它就能從兩張圖中分別提取啤酒瓶的數(shù)量和菜單上的單價,算出這頓飯買啤酒花了多少錢。
VLMs 的進(jìn)步如此之快,以至于讓模型找出這張圖中有沒有一些不合常理的「抽象元素」,例如,讓模型鑒定圖中有沒有一個人正在飛馳的出租車上熨衣服,成為了一種通行的測評方式。然而,目前的基準(zhǔn)測試集并不能很好地評估 VLMs 的視覺能力。以 MMMU 為例,其中有 42.9% 的問題不需要看圖,就能解決,也就是說,許多答案可以僅通過文本問題和選項推斷出來。其次,現(xiàn)在 VLM 展示出的能力,很大程度上是「背記」大規(guī)模互聯(lián)網(wǎng)
原文鏈接:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺