<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        AIGC動(dòng)態(tài)4個(gè)月前發(fā)布 智猩猩GenAI
        535 0 0

        共同一作為MSRA實(shí)習(xí)生、北大er

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        原標(biāo)題:讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):8751字

        微軟rStar-Math算法:賦能小模型數(shù)學(xué)推理能力

        本文總結(jié)了微軟亞洲研究院(MSRA)最新研發(fā)的rStar-Math算法,該算法顯著提升了小語言模型(SLM)的數(shù)學(xué)推理能力,甚至在某些方面超越了大型模型。文章還預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)。

        1. rStar-Math算法的核心創(chuàng)新

        rStar-Math的核心在于通過蒙特卡洛樹搜索(MCTS)和三項(xiàng)創(chuàng)新方法,讓小模型在不依賴大型教師模型的情況下,通過多輪自我進(jìn)化,掌握數(shù)學(xué)推理能力:

        1. 代碼增強(qiáng)CoT數(shù)據(jù)合成方法:該方法利用MCTS生成具有自我注釋的推理軌跡,并生成對(duì)應(yīng)的Python代碼進(jìn)行驗(yàn)證,確保每一步推理的正確性,減少錯(cuò)誤步驟。
        2. 過程獎(jiǎng)勵(lì)模型訓(xùn)練方法:通過引入過程偏好模型(PPM),可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測獎(jiǎng)勵(lì)標(biāo)簽,即使Q值不精確也能有效區(qū)分正確和錯(cuò)誤步驟。
        3. 四輪自我思維深度進(jìn)化:通過四輪迭代,逐步生成更高質(zhì)量的數(shù)據(jù),并通過更具挑戰(zhàn)性的數(shù)學(xué)問題擴(kuò)展訓(xùn)練集,不斷提升模型能力。

        這三項(xiàng)創(chuàng)新有效解決了現(xiàn)有方法中高質(zhì)量數(shù)據(jù)稀缺、訓(xùn)練過程容易出錯(cuò)等難題,使得小模型能夠進(jìn)行深度思考,并逐步提升數(shù)學(xué)推理能力。

        2. 實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

        實(shí)驗(yàn)結(jié)果顯示,rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力,在多個(gè)基準(zhǔn)測試中取得了優(yōu)異的成績:

        1. 在MATH基準(zhǔn)測試中,將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升到90.0%,Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%提升到87.8%,均超越了OpenAI o1-preview。
        2. 在美國數(shù)學(xué)競賽AIME 2024測試中,Qwen2.5-Math-7B的平均解題率達(dá)到53.3%,超過所有其他開源大模型,躋身最聰明高中生數(shù)學(xué)前20%。
        3. 在其他具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試(如College Math、奧賽基準(zhǔn)、中國高考數(shù)學(xué)考試)中也表現(xiàn)出色,展現(xiàn)了其通用性。

        實(shí)驗(yàn)結(jié)果驗(yàn)證了rStar-Math的有效性,也表明在固定計(jì)算預(yù)算下,小模型在某些推理問題上可以超越大型模型。

        3. rStar-Math團(tuán)隊(duì)及論文信息

        rStar-Math論文的共同一作分別來自微軟亞洲研究院和北京大學(xué)、清華大學(xué)的實(shí)習(xí)生。論文已上傳至arXiv,代碼和數(shù)據(jù)也已公開發(fā)布在GitHub上。

        4. 第四屆全球自動(dòng)駕駛峰會(huì)預(yù)告

        文章最后預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛領(lǐng)域的多個(gè)主題,包括端到端自動(dòng)駕駛創(chuàng)新、城市NOA、自動(dòng)駕駛視覺語言模型和自動(dòng)駕駛世界模型等。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 中文字幕的电影免费网站| 香蕉高清免费永久在线视频| 亚洲av永久无码精品网址| 亚洲av无码片在线播放| 免费一级做a爰片久久毛片潮喷| 亚洲成人免费网址| 热久久这里是精品6免费观看| 国产偷国产偷亚洲清高APP| 亚洲一级黄色大片| 99人中文字幕亚洲区| 亚洲日韩av无码| 亚洲Av无码国产情品久久| 日本免费网站观看| 国产在线国偷精品产拍免费| 99久久免费精品视频| 永久免费av无码网站yy| 国产VA免费精品高清在线| 国产亚洲成在线播放va| 亚洲成a人无码亚洲成www牛牛 | 成人亚洲国产va天堂| 中文字幕亚洲综合精品一区| 久久青青草原亚洲AV无码麻豆| 夜色阁亚洲一区二区三区| 国产免费怕怕免费视频观看| 好大好深好猛好爽视频免费| 久久久久久国产精品免费免费| 91网站免费观看| 日本成年免费网站| 永久免费毛片在线播放| 三年片在线观看免费观看高清电影| h视频在线观看免费网站| 久草免费在线观看视频| 青青青国产在线观看免费| 四虎永久在线观看免费网站网址 | 亚洲视屏在线观看| 77777_亚洲午夜久久多人| 亚洲色图.com| 亚洲区精品久久一区二区三区| 亚洲乱码中文字幕小综合| 2017亚洲男人天堂一| 日韩欧美亚洲中文乱码|