100題,每道都是送命題。
原標題:這屆出題太難了!新基準讓多模態模型集體自閉,GPT-4o都是零分
文章來源:機器之心
內容字數:5944字
ZeroBench:顛覆大模型視覺理解能力的全新基準
近日,一個名為ZeroBench的視覺基準測試橫空出世,挑戰了包括GPT-4o和Gemini 2 Flash在內的20多個頂尖大型多模態模型(LMM),并使其全部獲得零分。這引發了業界對現有大模型視覺理解能力的重新思考。
1. ZeroBench的挑戰性問題
ZeroBench包含100個手工定制的極具挑戰性的問題,這些問題并非簡單的圖像識別,而是需要模型進行多步驟推理、復雜的視覺理解和跨領域的知識運用。例如:
- 從一張反光模糊的菜單中,計算點單所有菜品的總價。
- 根據圖片計算不同重量和顏色的啞鈴的總重量,并進行分類統計。
- 根據圖片中的線索,推理出一個6位數的保險箱密碼。
- 計算圖片中朝南的鵝占總數的百分比,需要考慮方位、季節等因素。
- 根據一個由賽艇隊員裝備制成的特殊時鐘,解答一系列涉及時間、空間和幾何變換的問題。
這些問題不僅考驗模型的視覺識別能力,還要求其具備強大的推理能力、知識儲備和對復雜場景的理解。
2. ZeroBench的構建過程
ZeroBench的100個問題由20多位專家手工打造,并經過嚴格的篩選過程。為了保證難度,研究團隊使用了最新的模型進行“試水”,不斷調整問題的難度,直到達到“難度適中”的標準。篩選流程包括反饋、初步評估、審查和對抗過濾四個步驟,確保問題的挑戰性和多樣性。
3. 評估結果與分析
在ZeroBench上,所有參與評估的20個LMM均表現不佳,平均得分均為0%。即使是表現最好的Gemini 2 Flash Thinking,其正確率也僅為7%。研究人員發現,模型在視覺解讀方面存在諸多錯誤,例如錯誤計數、忽略細節、空間關系理解困難等。
4. ZeroBench的意義
ZeroBench的出現,標志著對大模型視覺理解能力評估進入了一個新的階段。它打破了現有基準測試的局限性,為更準確地衡量大模型的真實視覺理解能力提供了新的標準,也為大模型未來的發展方向指明了方向。
ZeroBench項目主頁:https://zerobench.github.io/
論文地址:https://arxiv.org/pdf/2502.09696
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺