這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測(cè)試
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測(cè)試
關(guān)鍵字:模型,準(zhǔn)確率,多少錢(qián),解讀,測(cè)試
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部四大 VLM,竟都在盲人摸象?
讓現(xiàn)在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數(shù)一數(shù)兩條線有幾個(gè)交點(diǎn),他們表現(xiàn)會(huì)比人類好嗎?
答案很可能是否定的。
自 GPT-4V 推出以來(lái),視覺(jué)語(yǔ)言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。
VLMs 既能看懂畫(huà)面,又能用語(yǔ)言來(lái)描述看到的東西,并基于這些理解來(lái)執(zhí)行復(fù)雜的任務(wù)。比如,給 VLM 模型發(fā)去一張餐桌的圖片,再發(fā)一張菜單的圖片,它就能從兩張圖中分別提取啤酒瓶的數(shù)量和菜單上的單價(jià),算出這頓飯買(mǎi)啤酒花了多少錢(qián)。
VLMs 的進(jìn)步如此之快,以至于讓模型找出這張圖中有沒(méi)有一些不合常理的「抽象元素」,例如,讓模型鑒定圖中有沒(méi)有一個(gè)人正在飛馳的出租車上熨衣服,成為了一種通行的測(cè)評(píng)方式。然而,目前的基準(zhǔn)測(cè)試集并不能很好地評(píng)估 VLMs 的視覺(jué)能力。以 MMMU 為例,其中有 42.9% 的問(wèn)題不需要看圖,就能解決,也就是說(shuō),許多答案可以僅通過(guò)文本問(wèn)題和選項(xiàng)推斷出來(lái)。其次,現(xiàn)在 VLM 展示出的能力,很大程度上是「背記」大規(guī)模互聯(lián)網(wǎng)
原文鏈接:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測(cè)試
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)