<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        7B模型數(shù)學(xué)推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火

        AIGC動態(tài)8個月前發(fā)布 新智元
        394 0 0

        7B模型數(shù)學(xué)推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火

        原標(biāo)題:7B模型數(shù)學(xué)推理擊穿o1,直逼全美20%尖子生!四輪進化,微軟華人新作爆火
        文章來源:新智元
        內(nèi)容字數(shù):8194字

        微軟小模型在數(shù)學(xué)推理上超越OpenAI o1:rStar-Math算法詳解

        近日,微軟亞研院全華人團隊提出了一種名為rStar-Math的新算法,使小語言模型(SLM)在數(shù)學(xué)推理能力上取得突破性進展,甚至超越了OpenAI的o1模型,引發(fā)AI社區(qū)廣泛關(guān)注。該研究成果發(fā)表在arXiv上,論文鏈接為:https://arxiv.org/pdf/2501.04519。

        1. rStar-Math的核心思想:深度思考

          rStar-Math的核心在于賦予小模型“深度思考”的能力。該算法借鑒了AlphaGo中的蒙特卡洛樹搜索(MCTS)技術(shù),設(shè)計了一個由兩個協(xié)同工作的SLM組成的系統(tǒng):一個數(shù)學(xué)策略小語言模型(SLM)和一個過程獎勵模型(PRM)。通過MCTS,系統(tǒng)可以探索多種解題路徑,并選擇最優(yōu)解。

        2. 三大技術(shù)創(chuàng)新

          rStar-Math包含三大技術(shù)創(chuàng)新:

          1. 全新代碼增強CoT數(shù)據(jù)合成方法:將數(shù)學(xué)問題求解分解為MCTS中的多步驟生成,通過驗證Python代碼的執(zhí)行結(jié)果來確保中間步驟的正確性,并根據(jù)步驟貢獻自動分配Q值,提高數(shù)據(jù)質(zhì)量。
          2. 全新PRM訓(xùn)練方法:利用MCTS生成的Q值構(gòu)建偏好對,使用成對排名損失來訓(xùn)練PRM,避免了直接使用Q值作為獎勵標(biāo)簽帶來的噪聲和不精確。
          3. 自我進化方案:通過四輪迭代,逐步提升策略模型和PRM的性能,并生成更高質(zhì)量的訓(xùn)練數(shù)據(jù),最終解決更多高難度的數(shù)學(xué)問題。
        3. 自我進化過程詳解

          rStar-Math的自我進化過程包含四輪:第一輪引導(dǎo)訓(xùn)練初始策略模型;第二輪訓(xùn)練可靠的PRM;第三輪利用PRM增強MCTS生成更高質(zhì)量數(shù)據(jù);第四輪解決高難度數(shù)學(xué)問題,提升訓(xùn)練集覆蓋率。每一輪都迭代改進策略模型、PRM和訓(xùn)練數(shù)據(jù)。

        4. 實驗結(jié)果與分析

          rStar-Math在多個數(shù)學(xué)基準(zhǔn)測試中取得了顯著成果,包括MATH、GSM8K和AIME,其性能甚至超過了o1-preview,并在美國數(shù)學(xué)奧林匹克(AIME)中取得了53.3%的亮眼成績。實驗結(jié)果顯示,rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力,并展現(xiàn)出強大的泛化能力。

        5. 關(guān)鍵發(fā)現(xiàn):內(nèi)在自我反思能力

          研究人員意外地發(fā)現(xiàn),MCTS驅(qū)動的深度思考過程中,模型展現(xiàn)出內(nèi)在的自我反思能力,能夠識別并糾正錯誤的步驟,這在之前的開源大語言模型中并不常見。

        6. 結(jié)論

          rStar-Math通過巧妙地結(jié)合MCTS、代碼增強CoT數(shù)據(jù)合成和自我進化方案,顯著提升了小模型的數(shù)學(xué)推理能力,為未來的AI發(fā)展提供了新的方向。該研究表明,即使是小模型,也能在特定任務(wù)上達到甚至超越大型模型的性能,為構(gòu)建更強大、更高效的AI系統(tǒng)提供了新的思路。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人毛片100免费观看| 国产一级片免费看| 精品成在人线AV无码免费看| 亚洲午夜无码久久久久| 无码免费又爽又高潮喷水的视频 | 日韩亚洲国产综合久久久| 免费在线观看视频a| 亚洲人成无码网站在线观看| xxxxwww免费| 亚洲欧美日韩综合俺去了| 成人免费在线视频| 久久亚洲中文字幕精品一区| 亚洲一区二区电影| 最近中文字幕完整免费视频ww| 亚洲精品视频免费看| 精品亚洲国产成人av| 中文字幕在线免费观看| 亚洲精品视频在线播放| 最新猫咪www免费人成| 免费在线观看亚洲| 亚洲情侣偷拍精品| 亚洲av无码一区二区三区人妖| 久久综合九色综合97免费下载| 亚洲AV日韩AV天堂久久| 亚洲一区二区免费视频| 亚洲色欲色欲www| 国产成人免费视频| 久久亚洲AV无码精品色午夜麻豆| 国产乱妇高清无乱码免费| 四虎影视永久免费观看| 亚洲丰满熟女一区二区v| 182tv免费视频在线观看| 免费一级做a爰片久久毛片潮喷| 美女黄频免费网站| 亚洲成a人片77777kkkk| 免费观看激色视频网站bd| 亚洲熟妇无码一区二区三区| 2021国产精品成人免费视频| 久久久久亚洲精品无码网址色欲| 亚洲啪啪AV无码片| 免费看黄视频网站|