AI考試的能力在不斷提高。
原標題:多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%
文章來源:機器之心
內容字數:4864字
DeepSeek R1推理模型及多元推理方法突破
近日,機器之心報道了波士頓大學、NotBadMath.AI、谷歌等機構研究者提出的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的準確率。該方法針對DeepSeek R1、OpenAI o1和o3等模型在國際數學奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題上表現不佳的情況,提出了一種有效的解決方案。
1. 問題與挑戰
當前主流推理模型,例如DeepSeek R1和OpenAI o1、o3,雖然在數學和編程領域取得了進展,但在一些高難度的基準測試中表現欠佳。例如,在HLE測試中,這些模型的準確率均低于10%。這表明現有模型在復雜推理、抽象和邏輯方面仍存在不足。
2. 多元推理方法
為了解決這個問題,研究者提出了一種多元推理方法,該方法的核心在于測試時結合多種模型、方法和代理,而非依賴單一模型。具體包括:
- 多元推理 (Diverse Inference): 同時使用多種模型和方法,例如在IMO問題中使用8種不同的方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并通過交互式定理證明器Lean自動驗證答案的正確性;在ARC謎題中通過代碼自動驗證;在HLE問題中使用best-of-N算法。
- 測試時模擬和強化學習: 通過生成額外特定于問題的信息,例如將組合題轉化為可交互游戲環境,利用組合搜索或深度強化學習找到部分結果或邊界;合成代碼來探索謎題轉換,從而優化候選解決方案。研究發現,使用訓練過的驗證器進行搜索往往比監督微調效果更好,這為強化學習微調提供了思路。
- 代碼圖的元學習: 利用LLM和其他工具追蹤pipeline運行,生成超參數、提示詞、代碼標題和數據的A/B測試,并自適應地修改代理圖。
3. 實驗結果與發現
實驗結果表明,多元推理方法顯著提升了模型在各個基準上的準確率:
- IMO組合問題:準確率從33.3%提升到77.8%。
- HLE問題:準確率從8%提升到37%。
- ARC謎題:解決了948名人類無法攻克的80%的謎題,以及o3 high無法解決的26.5%的謎題。
此外,研究者還發現了基礎語言模型的第三個實證性scaling law:多種模型、方法的數量與可驗證問題性能之間呈正相關關系。這與前兩個scaling law(模型大小、數據大小和損失之間的關系;模型性能和測試時算力之間的關系)一起,為提升大型語言模型推理能力提供了新的方向。
4. 總結
這項研究提出了一種簡單而高效的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的性能。該方法結合了多種模型、方法和測試時模擬、強化學習等技術,為未來大型語言模型的發展提供了新的思路和方向。 研究結果表明,通過合理的策略組合,可以有效克服當前大型語言模型在復雜推理問題上的局限性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺