谷歌發(fā)布BIG-Bench超難基準：DeepSeek-R1得分6.8，只有o3-mini超過10分

推理模型不是什么都行。

原標題：谷歌發(fā)布BIG-Bench超難基準：DeepSeek-R1得分6.8，只有o3-mini超過10分
文章來源：機器之心
內(nèi)容字數(shù)：4962字

谷歌發(fā)布超高難度AI基準測試BBEH：挑戰(zhàn)頂級模型

近日，谷歌發(fā)布了一個名為BIG-Bench Extra Hard (BBEH) 的超高難度AI基準測試，旨在評估高階推理能力，并挑戰(zhàn)當前最先進的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)構(gòu)建，但難度大幅提升，每個任務(wù)都比BBH更難，使得所有現(xiàn)有模型都有顯著的提升空間。

1. BBEH的難度與設(shè)計

BBEH通過將BBH中的23個任務(wù)替換成難度更高的同類任務(wù)而構(gòu)建，確保了數(shù)據(jù)集的多樣性。每個任務(wù)包含200個問題（Disambiguation QA任務(wù)除外，有120個問題）。即使是目前最強大的模型o3-mini (high)，其得分也僅為44.8%，不及格；其他模型得分大多不超過10%。這表明BBEH成功地設(shè)定了極高的難度門檻。

2. 頂級模型的表現(xiàn)與分析

研究團隊對多個領(lǐng)先模型進行了測試，結(jié)果顯示：所有模型在BBEH上都有很大的進步空間。通用模型的最佳性能僅為9.8%的調(diào)和平均準確率，而專門的推理模型雖然表現(xiàn)更好，但最佳性能也只有44.8%。部分模型的準確率甚至低于隨機水平，原因是模型無法在有效輸出token長度內(nèi)解決問題，導(dǎo)致答案退化。

此外，不同模型擅長不同類型的推理。例如，DeepSeek R1在BoardgameQA上表現(xiàn)突出，o3-mini (high)在時間序列和物體屬性方面表現(xiàn)優(yōu)異，GPT4o在NYCC上表現(xiàn)出色。

3. 模型類型與大小的影響

研究結(jié)果表明，推理模型在涉及數(shù)學和編碼的推理任務(wù)上表現(xiàn)顯著優(yōu)于通用模型。然而，在涉及常識、幽默、諷刺和因果關(guān)系等復(fù)雜現(xiàn)實場景的任務(wù)中，推理模型的優(yōu)勢并不明顯。

模型大小也對性能有影響。更大的模型在需要多跳推理或應(yīng)用算法的任務(wù)上表現(xiàn)更好，但在涉及幽默、常識和因果推理的任務(wù)上優(yōu)勢不明顯，SARC Triples任務(wù)是個例外。

4. 上下文長度和思考量的影響

BBEH任務(wù)的上下文長度和所需思考量各不相同。研究發(fā)現(xiàn)，與通用模型相比，推理模型在上下文長度增加或思考量增加時，性能提升更為顯著。這表明推理模型在處理更長上下文和更復(fù)雜推理問題方面具有更大的潛力。

5. 總結(jié)

BBEH基準的發(fā)布為AI模型的評估提供了新的挑戰(zhàn)，也為未來的研究方向指明了道路。該基準的超高難度促使研究者開發(fā)更強大的模型，并更深入地理解AI模型的推理能力及其局限性。BBEH的出現(xiàn)也標志著對AI模型評估方法的持續(xù)改進，未來將會有更多更難的基準出現(xiàn)。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# BIG-Bench # DeepSeek-R1 # o3-mini # 大型語言模型評估 # 超難基準測試

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

谷歌發(fā)布BIG-Bench超難基準：DeepSeek-R1得分6.8，只有o3-mini超過10分

推理模型不是什么都行。

谷歌發(fā)布超高難度AI基準測試BBEH：挑戰(zhàn)頂級模型

1. BBEH的難度與設(shè)計

2. 頂級模型的表現(xiàn)與分析

3. 模型類型與大小的影響

4. 上下文長度和思考量的影響

5. 總結(jié)

聯(lián)系作者

超11w下載，OpenThoughts-114k推理數(shù)據(jù)集上線；首個AI短劇創(chuàng)作神器SkyReels-V1來了！告別高成本長周期

90后北大校友破解掛谷猜想，陶哲軒激動轉(zhuǎn)發(fā)！網(wǎng)友：預(yù)定菲爾茲獎

相關(guān)文章

暫無評論