多元推理刷新「人類的最后考試」記錄，o3-mini(high)準確率最高飆升到37％

AI考試的能力在不斷提高。

原標題：多元推理刷新「人類的最后考試」記錄，o3-mini(high)準確率最高飆升到37％
文章來源：機器之心
內容字數：4864字

DeepSeek R1推理模型及多元推理方法突破

近日，機器之心報道了波士頓大學、NotBadMath.AI、谷歌等機構研究者提出的多元推理方法，顯著提升了大型語言模型在復雜推理任務上的準確率。該方法針對DeepSeek R1、OpenAI o1和o3等模型在國際數學奧林匹克競賽（IMO）組合問題、抽象和推理語料庫（ARC）謎題和人類的最后考試（HLE）問題上表現不佳的情況，提出了一種有效的解決方案。

1. 問題與挑戰

當前主流推理模型，例如DeepSeek R1和OpenAI o1、o3，雖然在數學和編程領域取得了進展，但在一些高難度的基準測試中表現欠佳。例如，在HLE測試中，這些模型的準確率均低于10%。這表明現有模型在復雜推理、抽象和邏輯方面仍存在不足。

2. 多元推理方法

為了解決這個問題，研究者提出了一種多元推理方法，該方法的核心在于測試時結合多種模型、方法和代理，而非依賴單一模型。具體包括：

多元推理 (Diverse Inference): 同時使用多種模型和方法，例如在IMO問題中使用8種不同的方法（LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV），并通過交互式定理證明器Lean自動驗證答案的正確性；在ARC謎題中通過代碼自動驗證；在HLE問題中使用best-of-N算法。
測試時模擬和強化學習: 通過生成額外特定于問題的信息，例如將組合題轉化為可交互游戲環境，利用組合搜索或深度強化學習找到部分結果或邊界；合成代碼來探索謎題轉換，從而優化候選解決方案。研究發現，使用訓練過的驗證器進行搜索往往比監督微調效果更好，這為強化學習微調提供了思路。
代碼圖的元學習: 利用LLM和其他工具追蹤pipeline運行，生成超參數、提示詞、代碼標題和數據的A/B測試，并自適應地修改代理圖。

3. 實驗結果與發現

實驗結果表明，多元推理方法顯著提升了模型在各個基準上的準確率：

IMO組合問題：準確率從33.3%提升到77.8%。
HLE問題：準確率從8%提升到37%。
ARC謎題：解決了948名人類無法攻克的80%的謎題，以及o3 high無法解決的26.5%的謎題。

此外，研究者還發現了基礎語言模型的第三個實證性scaling law：多種模型、方法的數量與可驗證問題性能之間呈正相關關系。這與前兩個scaling law（模型大小、數據大小和損失之間的關系；模型性能和測試時算力之間的關系）一起，為提升大型語言模型推理能力提供了新的方向。

4. 總結

這項研究提出了一種簡單而高效的多元推理方法，顯著提升了大型語言模型在復雜推理任務上的性能。該方法結合了多種模型、方法和測試時模擬、強化學習等技術，為未來大型語言模型的發展提供了新的思路和方向。研究結果表明，通過合理的策略組合，可以有效克服當前大型語言模型在復雜推理問題上的局限性。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # o3-minihigh # 人工智能基準測試 # 人類水平考試 # 多元推理 # 大型語言模型準確率

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

多元推理刷新「人類的最后考試」記錄，o3-mini(high)準確率最高飆升到37％

AI考試的能力在不斷提高。

DeepSeek R1推理模型及多元推理方法突破

1. 問題與挑戰

2. 多元推理方法

3. 實驗結果與發現

4. 總結

聯系作者

MWC 2025 | 廣和通發布全矩陣AI解決方案“星云”系列，創新變革端側AI

小米手機的外掛鏡頭很強，但不會顛覆相機｜硬哲學

相關文章

暫無評論

ChatGPT

玩虛擬模特？