這屆出題太難了！新基準(zhǔn)讓多模態(tài)模型集體自閉，GPT-4o都是零分

100題，每道都是送命題。

原標(biāo)題：這屆出題太難了！新基準(zhǔn)讓多模態(tài)模型集體自閉，GPT-4o都是零分
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：5944字

ZeroBench：顛覆大模型視覺理解能力的全新基準(zhǔn)

近日，一個名為ZeroBench的視覺基準(zhǔn)測試橫空出世，挑戰(zhàn)了包括GPT-4o和Gemini 2 Flash在內(nèi)的20多個頂尖大型多模態(tài)模型（LMM），并使其全部獲得零分。這引發(fā)了業(yè)界對現(xiàn)有大模型視覺理解能力的重新思考。

1. ZeroBench的挑戰(zhàn)性問題

ZeroBench包含100個手工定制的極具挑戰(zhàn)性的問題，這些問題并非簡單的圖像識別，而是需要模型進行多步驟推理、復(fù)雜的視覺理解和跨領(lǐng)域的知識運用。例如：

從一張反光模糊的菜單中，計算點單所有菜品的總價。
根據(jù)圖片計算不同重量和顏色的啞鈴的總重量，并進行分類統(tǒng)計。
根據(jù)圖片中的線索，推理出一個6位數(shù)的保險箱密碼。
計算圖片中朝南的鵝占總數(shù)的百分比，需要考慮方位、季節(jié)等因素。
根據(jù)一個由賽艇隊員裝備制成的特殊時鐘，解答一系列涉及時間、空間和幾何變換的問題。

這些問題不僅考驗?zāi)Ｐ偷囊曈X識別能力，還要求其具備強大的推理能力、知識儲備和對復(fù)雜場景的理解。

2. ZeroBench的構(gòu)建過程

ZeroBench的100個問題由20多位專家手工打造，并經(jīng)過嚴(yán)格的篩選過程。為了保證難度，研究團隊使用了最新的模型進行“試水”，不斷調(diào)整問題的難度，直到達到“難度適中”的標(biāo)準(zhǔn)。篩選流程包括反饋、初步評估、審查和對抗過濾四個步驟，確保問題的挑戰(zhàn)性和多樣性。

3. 評估結(jié)果與分析

在ZeroBench上，所有參與評估的20個LMM均表現(xiàn)不佳，平均得分均為0%。即使是表現(xiàn)最好的Gemini 2 Flash Thinking，其正確率也僅為7%。研究人員發(fā)現(xiàn)，模型在視覺解讀方面存在諸多錯誤，例如錯誤計數(shù)、忽略細節(jié)、空間關(guān)系理解困難等。

4. ZeroBench的意義

ZeroBench的出現(xiàn)，標(biāo)志著對大模型視覺理解能力評估進入了一個新的階段。它打破了現(xiàn)有基準(zhǔn)測試的局限性，為更準(zhǔn)確地衡量大模型的真實視覺理解能力提供了新的標(biāo)準(zhǔn)，也為大模型未來的發(fā)展方向指明了方向。

ZeroBench項目主頁：https://zerobench.github.io/

論文地址：https://arxiv.org/pdf/2502.09696

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# GPT-4性能瓶頸 # 人工智能考試 # 多模態(tài)模型評估 # 大模型零分 # 新基準(zhǔn)測試

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

這屆出題太難了！新基準(zhǔn)讓多模態(tài)模型集體自閉，GPT-4o都是零分

100題，每道都是送命題。

ZeroBench：顛覆大模型視覺理解能力的全新基準(zhǔn)

1. ZeroBench的挑戰(zhàn)性問題

2. ZeroBench的構(gòu)建過程

3. 評估結(jié)果與分析

4. ZeroBench的意義

聯(lián)系作者

在線教程丨3款聲音克隆模型真實測評，GPT-SoVITS精準(zhǔn)拿捏「石磯娘娘」特點

全球最大開源視頻模型，現(xiàn)在也Created in China了，階躍出品

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？