谷歌發(fā)布BIG-Bench超難基準(zhǔn):DeepSeek-R1得分6.8,只有o3-mini超過10分
推理模型不是什么都行。
原標(biāo)題:谷歌發(fā)布BIG-Bench超難基準(zhǔn):DeepSeek-R1得分6.8,只有o3-mini超過10分
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4962字
谷歌發(fā)布超高難度AI基準(zhǔn)測試BBEH:挑戰(zhàn)頂級模型
近日,谷歌發(fā)布了一個名為BIG-Bench Extra Hard (BBEH) 的超高難度AI基準(zhǔn)測試,旨在評估高階推理能力,并挑戰(zhàn)當(dāng)前最先進(jìn)的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)構(gòu)建,但難度大幅提升,每個任務(wù)都比BBH更難,使得所有現(xiàn)有模型都有顯著的提升空間。
1. BBEH的難度與設(shè)計
BBEH通過將BBH中的23個任務(wù)替換成難度更高的同類任務(wù)而構(gòu)建,確保了數(shù)據(jù)集的多樣性。每個任務(wù)包含200個問題(Disambiguation QA任務(wù)除外,有120個問題)。即使是目前最強(qiáng)大的模型o3-mini (high),其得分也僅為44.8%,不及格;其他模型得分大多不超過10%。這表明BBEH成功地設(shè)定了極高的難度門檻。
2. 頂級模型的表現(xiàn)與分析
研究團(tuán)隊對多個領(lǐng)先模型進(jìn)行了測試,結(jié)果顯示:所有模型在BBEH上都有很大的進(jìn)步空間。通用模型的最佳性能僅為9.8%的調(diào)和平均準(zhǔn)確率,而專門的推理模型雖然表現(xiàn)更好,但最佳性能也只有44.8%。部分模型的準(zhǔn)確率甚至低于隨機(jī)水平,原因是模型無法在有效輸出token長度內(nèi)解決問題,導(dǎo)致答案退化。
此外,不同模型擅長不同類型的推理。例如,DeepSeek R1在BoardgameQA上表現(xiàn)突出,o3-mini (high)在時間序列和物體屬性方面表現(xiàn)優(yōu)異,GPT4o在NYCC上表現(xiàn)出色。
3. 模型類型與大小的影響
研究結(jié)果表明,推理模型在涉及數(shù)學(xué)和編碼的推理任務(wù)上表現(xiàn)顯著優(yōu)于通用模型。然而,在涉及常識、幽默、諷刺和因果關(guān)系等復(fù)雜現(xiàn)實場景的任務(wù)中,推理模型的優(yōu)勢并不明顯。
模型大小也對性能有影響。更大的模型在需要多跳推理或應(yīng)用算法的任務(wù)上表現(xiàn)更好,但在涉及幽默、常識和因果推理的任務(wù)上優(yōu)勢不明顯,SARC Triples任務(wù)是個例外。
4. 上下文長度和思考量的影響
BBEH任務(wù)的上下文長度和所需思考量各不相同。研究發(fā)現(xiàn),與通用模型相比,推理模型在上下文長度增加或思考量增加時,性能提升更為顯著。這表明推理模型在處理更長上下文和更復(fù)雜推理問題方面具有更大的潛力。
5. 總結(jié)
BBEH基準(zhǔn)的發(fā)布為AI模型的評估提供了新的挑戰(zhàn),也為未來的研究方向指明了道路。該基準(zhǔn)的超高難度促使研究者開發(fā)更強(qiáng)大的模型,并更深入地理解AI模型的推理能力及其局限性。BBEH的出現(xiàn)也標(biāo)志著對AI模型評估方法的持續(xù)改進(jìn),未來將會有更多更難的基準(zhǔn)出現(xiàn)。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺