這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
100題,每道都是送命題。
原標(biāo)題:這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
文章來源:機器之心
內(nèi)容字?jǐn)?shù):5944字
ZeroBench:顛覆大模型視覺理解能力的全新基準(zhǔn)
近日,一個名為ZeroBench的視覺基準(zhǔn)測試橫空出世,挑戰(zhàn)了包括GPT-4o和Gemini 2 Flash在內(nèi)的20多個頂尖大型多模態(tài)模型(LMM),并使其全部獲得零分。這引發(fā)了業(yè)界對現(xiàn)有大模型視覺理解能力的重新思考。
1. ZeroBench的挑戰(zhàn)性問題
ZeroBench包含100個手工定制的極具挑戰(zhàn)性的問題,這些問題并非簡單的圖像識別,而是需要模型進行多步驟推理、復(fù)雜的視覺理解和跨領(lǐng)域的知識運用。例如:
- 從一張反光模糊的菜單中,計算點單所有菜品的總價。
- 根據(jù)圖片計算不同重量和顏色的啞鈴的總重量,并進行分類統(tǒng)計。
- 根據(jù)圖片中的線索,推理出一個6位數(shù)的保險箱密碼。
- 計算圖片中朝南的鵝占總數(shù)的百分比,需要考慮方位、季節(jié)等因素。
- 根據(jù)一個由賽艇隊員裝備制成的特殊時鐘,解答一系列涉及時間、空間和幾何變換的問題。
這些問題不僅考驗?zāi)P偷囊曈X識別能力,還要求其具備強大的推理能力、知識儲備和對復(fù)雜場景的理解。
2. ZeroBench的構(gòu)建過程
ZeroBench的100個問題由20多位專家手工打造,并經(jīng)過嚴(yán)格的篩選過程。為了保證難度,研究團隊使用了最新的模型進行“試水”,不斷調(diào)整問題的難度,直到達到“難度適中”的標(biāo)準(zhǔn)。篩選流程包括反饋、初步評估、審查和對抗過濾四個步驟,確保問題的挑戰(zhàn)性和多樣性。
3. 評估結(jié)果與分析
在ZeroBench上,所有參與評估的20個LMM均表現(xiàn)不佳,平均得分均為0%。即使是表現(xiàn)最好的Gemini 2 Flash Thinking,其正確率也僅為7%。研究人員發(fā)現(xiàn),模型在視覺解讀方面存在諸多錯誤,例如錯誤計數(shù)、忽略細節(jié)、空間關(guān)系理解困難等。
4. ZeroBench的意義
ZeroBench的出現(xiàn),標(biāo)志著對大模型視覺理解能力評估進入了一個新的階段。它打破了現(xiàn)有基準(zhǔn)測試的局限性,為更準(zhǔn)確地衡量大模型的真實視覺理解能力提供了新的標(biāo)準(zhǔn),也為大模型未來的發(fā)展方向指明了方向。
ZeroBench項目主頁:https://zerobench.github.io/
論文地址:https://arxiv.org/pdf/2502.09696
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺