<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        7B模型數學推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火

        AIGC動態4個月前發布 新智元
        379 0 0

        7B模型數學推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火

        原標題:7B模型數學推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火
        文章來源:新智元
        內容字數:8194字

        微軟小模型在數學推理上超越OpenAI o1:rStar-Math算法詳解

        近日,微軟亞研院全華人團隊提出了一種名為rStar-Math的新算法,使小語言模型(SLM)在數學推理能力上取得突破性進展,甚至超越了OpenAI的o1模型,引發AI社區廣泛關注。該研究成果發表在arXiv上,論文鏈接為:https://arxiv.org/pdf/2501.04519。

        1. rStar-Math的核心思想:深度思考

          rStar-Math的核心在于賦予小模型“深度思考”的能力。該算法借鑒了AlphaGo中的蒙特卡洛樹搜索(MCTS)技術,設計了一個由兩個協同工作的SLM組成的系統:一個數學策略小語言模型(SLM)和一個過程獎勵模型(PRM)。通過MCTS,系統可以探索多種解題路徑,并選擇最優解。

        2. 三大技術創新

          rStar-Math包含三大技術創新:

          1. 全新代碼增強CoT數據合成方法:將數學問題求解分解為MCTS中的多步驟生成,通過驗證Python代碼的執行結果來確保中間步驟的正確性,并根據步驟貢獻自動分配Q值,提高數據質量。
          2. 全新PRM訓練方法:利用MCTS生成的Q值構建偏好對,使用成對排名損失來訓練PRM,避免了直接使用Q值作為獎勵標簽帶來的噪聲和不精確。
          3. 自我進化方案:通過四輪迭代,逐步提升策略模型和PRM的性能,并生成更高質量的訓練數據,最終解決更多高難度的數學問題。
        3. 自我進化過程詳解

          rStar-Math的自我進化過程包含四輪:第一輪引導訓練初始策略模型;第二輪訓練可靠的PRM;第三輪利用PRM增強MCTS生成更高質量數據;第四輪解決高難度數學問題,提升訓練集覆蓋率。每一輪都迭代改進策略模型、PRM和訓練數據。

        4. 實驗結果與分析

          rStar-Math在多個數學基準測試中取得了顯著成果,包括MATH、GSM8K和AIME,其性能甚至超過了o1-preview,并在美國數學奧林匹克(AIME)中取得了53.3%的亮眼成績。實驗結果顯示,rStar-Math顯著提升了SLM的數學推理能力,并展現出強大的泛化能力。

        5. 關鍵發現:內在自我反思能力

          研究人員意外地發現,MCTS驅動的深度思考過程中,模型展現出內在的自我反思能力,能夠識別并糾正錯誤的步驟,這在之前的開源大語言模型中并不常見。

        6. 結論

          rStar-Math通過巧妙地結合MCTS、代碼增強CoT數據合成和自我進化方案,顯著提升了小模型的數學推理能力,為未來的AI發展提供了新的方向。該研究表明,即使是小模型,也能在特定任務上達到甚至超越大型模型的性能,為構建更強大、更高效的AI系統提供了新的思路。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一区二区三区久久久久| 中文字幕在线观看亚洲日韩| 免费一级毛suv好看的国产网站 | a级片在线免费看| 亚洲一级特黄无码片| 欧洲乱码伦视频免费国产| 国产成人精品免费视频大全五级| 亚洲精品无码专区在线| 免费被黄网站在观看| 欧洲亚洲综合一区二区三区| 免费v片在线观看品善网| 一级黄色毛片免费看| 亚洲色婷婷六月亚洲婷婷6月 | 麻豆亚洲AV成人无码久久精品| 免费无码黄网站在线观看| 亚洲av成人一区二区三区观看在线 | 老司机69精品成免费视频| 久久久久久a亚洲欧洲AV| 久久国产乱子精品免费女| 亚洲视频免费一区| 超pen个人视频国产免费观看| 国产成人亚洲精品播放器下载| 亚洲日本中文字幕一区二区三区| 最近的2019免费中文字幕| 久久久无码精品亚洲日韩蜜臀浪潮| 四虎在线最新永久免费| 亚洲成av人无码亚洲成av人| 亚洲精品无码日韩国产不卡?V| 你懂的免费在线观看网站| 亚洲伊人久久大香线焦| 免费大香伊蕉在人线国产| 两个人看的www高清免费视频| 亚洲一区二区三区首页| 女人18毛片水最多免费观看 | 亚洲精品国产电影午夜| 韩国18福利视频免费观看| 中文在线免费看视频| 亚洲一区在线观看视频| 亚洲免费无码在线| 麻豆视频免费观看| yy一级毛片免费视频|