<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%

        AIGC動態7個月前發布 機器之心
        372 0 0

        AI考試的能力在不斷提高。

        多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%

        原標題:多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%
        文章來源:機器之心
        內容字數:4864字

        DeepSeek R1推理模型及多元推理方法突破

        近日,機器之心報道了波士頓大學、NotBadMath.AI、谷歌等機構研究者提出的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的準確率。該方法針對DeepSeek R1、OpenAI o1和o3等模型在國際數學奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題上表現不佳的情況,提出了一種有效的解決方案。

        1. 問題與挑戰

        當前主流推理模型,例如DeepSeek R1和OpenAI o1、o3,雖然在數學和編程領域取得了進展,但在一些高難度的基準測試中表現欠佳。例如,在HLE測試中,這些模型的準確率均低于10%。這表明現有模型在復雜推理、抽象和邏輯方面仍存在不足。

        2. 多元推理方法

        為了解決這個問題,研究者提出了一種多元推理方法,該方法的核心在于測試時結合多種模型、方法和代理,而非依賴單一模型。具體包括:

        1. 多元推理 (Diverse Inference): 同時使用多種模型和方法,例如在IMO問題中使用8種不同的方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并通過交互式定理證明器Lean自動驗證答案的正確性;在ARC謎題中通過代碼自動驗證;在HLE問題中使用best-of-N算法。
        2. 測試時模擬和強化學習: 通過生成額外特定于問題的信息,例如將組合題轉化為可交互游戲環境,利用組合搜索或深度強化學習找到部分結果或邊界;合成代碼來探索謎題轉換,從而優化候選解決方案。研究發現,使用訓練過的驗證器進行搜索往往比監督微調效果更好,這為強化學習微調提供了思路。
        3. 代碼圖的元學習: 利用LLM和其他工具追蹤pipeline運行,生成超參數、提示詞、代碼標題和數據的A/B測試,并自適應地修改代理圖。

        3. 實驗結果與發現

        實驗結果表明,多元推理方法顯著提升了模型在各個基準上的準確率:

        • IMO組合問題:準確率從33.3%提升到77.8%。
        • HLE問題:準確率從8%提升到37%。
        • ARC謎題:解決了948名人類無法攻克的80%的謎題,以及o3 high無法解決的26.5%的謎題。

        此外,研究者還發現了基礎語言模型的第三個實證性scaling law:多種模型、方法的數量與可驗證問題性能之間呈正相關關系。這與前兩個scaling law(模型大小、數據大小和損失之間的關系;模型性能和測試時算力之間的關系)一起,為提升大型語言模型推理能力提供了新的方向。

        4. 總結

        這項研究提出了一種簡單而高效的多元推理方法,顯著提升了大型語言模型在復雜推理任務上的性能。該方法結合了多種模型、方法和測試時模擬、強化學習等技術,為未來大型語言模型的發展提供了新的思路和方向。 研究結果表明,通過合理的策略組合,可以有效克服當前大型語言模型在復雜推理問題上的局限性。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 18女人腿打开无遮掩免费| 中国人免费观看高清在线观看二区| 久久久久久久99精品免费观看| 色偷偷亚洲第一综合网| 香蕉视频在线观看免费| 免费涩涩在线视频网| 亚洲精品成人无限看| 麻豆亚洲AV成人无码久久精品 | 亚洲免费视频观看| 中文毛片无遮挡高潮免费| 亚洲av乱码一区二区三区香蕉 | 在线观看特色大片免费视频| 国产a v无码专区亚洲av| 色老头综合免费视频| 国产亚洲AV夜间福利香蕉149| 中文字幕在线免费看| 国产亚洲精品资源在线26u| 久久狠狠躁免费观看| 国产亚洲av人片在线观看| 国产又黄又爽胸又大免费视频| 亚洲AV无码一区二区乱子伦| 另类专区另类专区亚洲| 亚洲AV无码不卡在线观看下载| 亚洲一卡2卡4卡5卡6卡在线99 | 亚洲人成网站在线观看青青| 99re8这里有精品热视频免费| 亚洲欧洲在线观看| 无码少妇一区二区浪潮免费| 久久精品国产亚洲AV| 国外亚洲成AV人片在线观看| 久久精品人成免费| 亚洲国产精品成人午夜在线观看 | 91精品国产免费入口| 亚洲午夜福利在线视频| 日本片免费观看一区二区| 亚洲av伊人久久综合密臀性色| 91av视频免费在线观看| 亚洲AV电影天堂男人的天堂| 国产网站在线免费观看| 亚洲国产AV无码一区二区三区| 国产福利电影一区二区三区,亚洲国模精品一区 |