推理模型不是什么都行。
原標題:谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分
文章來源:機器之心
內容字數:4962字
谷歌發布超高難度AI基準測試BBEH:挑戰頂級模型
近日,谷歌發布了一個名為BIG-Bench Extra Hard (BBEH) 的超高難度AI基準測試,旨在評估高階推理能力,并挑戰當前最先進的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)構建,但難度大幅提升,每個任務都比BBH更難,使得所有現有模型都有顯著的提升空間。
1. BBEH的難度與設計
BBEH通過將BBH中的23個任務替換成難度更高的同類任務而構建,確保了數據集的多樣性。每個任務包含200個問題(Disambiguation QA任務除外,有120個問題)。即使是目前最強大的模型o3-mini (high),其得分也僅為44.8%,不及格;其他模型得分大多不超過10%。這表明BBEH成功地設定了極高的難度門檻。
2. 頂級模型的表現與分析
研究團隊對多個領先模型進行了測試,結果顯示:所有模型在BBEH上都有很大的進步空間。通用模型的最佳性能僅為9.8%的調和平均準確率,而專門的推理模型雖然表現更好,但最佳性能也只有44.8%。部分模型的準確率甚至低于隨機水平,原因是模型無法在有效輸出token長度內解決問題,導致答案退化。
此外,不同模型擅長不同類型的推理。例如,DeepSeek R1在BoardgameQA上表現突出,o3-mini (high)在時間序列和物體屬性方面表現優異,GPT4o在NYCC上表現出色。
3. 模型類型與大小的影響
研究結果表明,推理模型在涉及數學和編碼的推理任務上表現顯著優于通用模型。然而,在涉及常識、幽默、諷刺和因果關系等復雜現實場景的任務中,推理模型的優勢并不明顯。
模型大小也對性能有影響。更大的模型在需要多跳推理或應用算法的任務上表現更好,但在涉及幽默、常識和因果推理的任務上優勢不明顯,SARC Triples任務是個例外。
4. 上下文長度和思考量的影響
BBEH任務的上下文長度和所需思考量各不相同。研究發現,與通用模型相比,推理模型在上下文長度增加或思考量增加時,性能提升更為顯著。這表明推理模型在處理更長上下文和更復雜推理問題方面具有更大的潛力。
5. 總結
BBEH基準的發布為AI模型的評估提供了新的挑戰,也為未來的研究方向指明了道路。該基準的超高難度促使研究者開發更強大的模型,并更深入地理解AI模型的推理能力及其局限性。BBEH的出現也標志著對AI模型評估方法的持續改進,未來將會有更多更難的基準出現。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺