AIGC動態歡迎閱讀
原標題:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試
關鍵字:模型,準確率,多少錢,解讀,測試
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部四大 VLM,竟都在盲人摸象?
讓現在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數一數兩條線有幾個交點,他們表現會比人類好嗎?
答案很可能是否定的。
自 GPT-4V 推出以來,視覺語言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。
VLMs 既能看懂畫面,又能用語言來描述看到的東西,并基于這些理解來執行復雜的任務。比如,給 VLM 模型發去一張餐桌的圖片,再發一張菜單的圖片,它就能從兩張圖中分別提取啤酒瓶的數量和菜單上的單價,算出這頓飯買啤酒花了多少錢。
VLMs 的進步如此之快,以至于讓模型找出這張圖中有沒有一些不合常理的「抽象元素」,例如,讓模型鑒定圖中有沒有一個人正在飛馳的出租車上熨衣服,成為了一種通行的測評方式。然而,目前的基準測試集并不能很好地評估 VLMs 的視覺能力。以 MMMU 為例,其中有 42.9% 的問題不需要看圖,就能解決,也就是說,許多答案可以僅通過文本問題和選項推斷出來。其次,現在 VLM 展示出的能力,很大程度上是「背記」大規模互聯網
原文鏈接:這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...