<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%

        AIGC動態4個月前發布 機器之心
        364 0 0

        AI考試的能力在不斷提高。

        多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%

        原標題:多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%
        文章來源:機器之心
        內容字數:4864字

        DeepSeek R1推理模型及多元推理方法突破

        近日,機器之心報道了波士頓大學、NotBadMath.AI、谷歌等機構研究者提出的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的準確率。該方法針對DeepSeek R1、OpenAI o1和o3等模型在國際數學奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題上表現不佳的情況,提出了一種有效的解決方案。

        1. 問題與挑戰

        當前主流推理模型,例如DeepSeek R1和OpenAI o1、o3,雖然在數學和編程領域取得了進展,但在一些高難度的基準測試中表現欠佳。例如,在HLE測試中,這些模型的準確率均低于10%。這表明現有模型在復雜推理、抽象和邏輯方面仍存在不足。

        2. 多元推理方法

        為了解決這個問題,研究者提出了一種多元推理方法,該方法的核心在于測試時結合多種模型、方法和代理,而非依賴單一模型。具體包括:

        1. 多元推理 (Diverse Inference): 同時使用多種模型和方法,例如在IMO問題中使用8種不同的方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并通過交互式定理證明器Lean自動驗證答案的正確性;在ARC謎題中通過代碼自動驗證;在HLE問題中使用best-of-N算法。
        2. 測試時模擬和強化學習: 通過生成額外特定于問題的信息,例如將組合題轉化為可交互游戲環境,利用組合搜索或深度強化學習找到部分結果或邊界;合成代碼來探索謎題轉換,從而優化候選解決方案。研究發現,使用訓練過的驗證器進行搜索往往比監督微調效果更好,這為強化學習微調提供了思路。
        3. 代碼圖的元學習: 利用LLM和其他工具追蹤pipeline運行,生成超參數、提示詞、代碼標題和數據的A/B測試,并自適應地修改代理圖。

        3. 實驗結果與發現

        實驗結果表明,多元推理方法顯著提升了模型在各個基準上的準確率:

        • IMO組合問題:準確率從33.3%提升到77.8%。
        • HLE問題:準確率從8%提升到37%。
        • ARC謎題:解決了948名人類無法攻克的80%的謎題,以及o3 high無法解決的26.5%的謎題。

        此外,研究者還發現了基礎語言模型的第三個實證性scaling law:多種模型、方法的數量與可驗證問題性能之間呈正相關關系。這與前兩個scaling law(模型大小、數據大小和損失之間的關系;模型性能和測試時算力之間的關系)一起,為提升大型語言模型推理能力提供了新的方向。

        4. 總結

        這項研究提出了一種簡單而高效的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的性能。該方法結合了多種模型、方法和測試時模擬、強化學習等技術,為未來大型語言模型的發展提供了新的思路和方向。 研究結果表明,通過合理的策略組合,可以有效克服當前大型語言模型在復雜推理問題上的局限性。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费乱码中文字幕网站| 久久99毛片免费观看不卡| 免费看国产精品3a黄的视频| 国产精品久久久亚洲| 美女被免费网站91色| 亚洲自偷自偷偷色无码中文| 国产99精品一区二区三区免费 | 精品国产污污免费网站入口在线| 国产成人免费片在线观看 | 中文字幕无线码中文字幕免费| 亚洲精品无码永久在线观看| 黄色一级视频免费观看| 亚洲色欲久久久久综合网| xvideos永久免费入口| 国产亚洲精品无码成人| 无码免费一区二区三区免费播放| 99久久精品国产亚洲| 日韩亚洲国产高清免费视频| 91亚洲性爱在线视频| 成全视频在线观看免费高清动漫视频下载| 亚洲国产视频久久| 夜色阁亚洲一区二区三区 | 2020亚洲男人天堂精品| 无人在线直播免费观看| 亚洲熟女www一区二区三区| 亚洲AⅤ视频一区二区三区| 两个人的视频www免费| 亚洲综合色丁香麻豆| 午夜两性色视频免费网站| 中美日韩在线网免费毛片视频| 亚洲国产精品综合久久网络| 国产一区二区三区免费观看在线| 亚洲色偷偷av男人的天堂| 精品免费国产一区二区三区| 国产区在线免费观看| 亚洲日本在线看片| 国产精品久免费的黄网站 | 亚洲精品黄色视频在线观看免费资源 | 亚洲一区二区三区在线| 免费国产成人高清视频网站| 欧洲人成在线免费|