<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        AIGC動(dòng)態(tài)8個(gè)月前發(fā)布 智猩猩GenAI
        550 0 0

        共同一作為MSRA實(shí)習(xí)生、北大er

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        原標(biāo)題:讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):8751字

        微軟rStar-Math算法:賦能小模型數(shù)學(xué)推理能力

        本文總結(jié)了微軟亞洲研究院(MSRA)最新研發(fā)的rStar-Math算法,該算法顯著提升了小語言模型(SLM)的數(shù)學(xué)推理能力,甚至在某些方面超越了大型模型。文章還預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)。

        1. rStar-Math算法的核心創(chuàng)新

        rStar-Math的核心在于通過蒙特卡洛樹搜索(MCTS)和三項(xiàng)創(chuàng)新方法,讓小模型在不依賴大型教師模型的情況下,通過多輪自我進(jìn)化,掌握數(shù)學(xué)推理能力:

        1. 代碼增強(qiáng)CoT數(shù)據(jù)合成方法:該方法利用MCTS生成具有自我注釋的推理軌跡,并生成對(duì)應(yīng)的Python代碼進(jìn)行驗(yàn)證,確保每一步推理的正確性,減少錯(cuò)誤步驟。
        2. 過程獎(jiǎng)勵(lì)模型訓(xùn)練方法:通過引入過程偏好模型(PPM),可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測(cè)獎(jiǎng)勵(lì)標(biāo)簽,即使Q值不精確也能有效區(qū)分正確和錯(cuò)誤步驟。
        3. 四輪自我思維深度進(jìn)化:通過四輪迭代,逐步生成更高質(zhì)量的數(shù)據(jù),并通過更具挑戰(zhàn)性的數(shù)學(xué)問題擴(kuò)展訓(xùn)練集,不斷提升模型能力。

        這三項(xiàng)創(chuàng)新有效解決了現(xiàn)有方法中高質(zhì)量數(shù)據(jù)稀缺、訓(xùn)練過程容易出錯(cuò)等難題,使得小模型能夠進(jìn)行深度思考,并逐步提升數(shù)學(xué)推理能力。

        2. 實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

        實(shí)驗(yàn)結(jié)果顯示,rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力,在多個(gè)基準(zhǔn)測(cè)試中取得了優(yōu)異的成績(jī):

        1. 在MATH基準(zhǔn)測(cè)試中,將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升到90.0%,Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%提升到87.8%,均超越了OpenAI o1-preview。
        2. 在美國(guó)數(shù)學(xué)競(jìng)賽AIME 2024測(cè)試中,Qwen2.5-Math-7B的平均解題率達(dá)到53.3%,超過所有其他開源大模型,躋身最聰明高中生數(shù)學(xué)前20%。
        3. 在其他具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測(cè)試(如College Math、奧賽基準(zhǔn)、中國(guó)高考數(shù)學(xué)考試)中也表現(xiàn)出色,展現(xiàn)了其通用性。

        實(shí)驗(yàn)結(jié)果驗(yàn)證了rStar-Math的有效性,也表明在固定計(jì)算預(yù)算下,小模型在某些推理問題上可以超越大型模型。

        3. rStar-Math團(tuán)隊(duì)及論文信息

        rStar-Math論文的共同一作分別來自微軟亞洲研究院和北京大學(xué)、清華大學(xué)的實(shí)習(xí)生。論文已上傳至arXiv,代碼和數(shù)據(jù)也已公開發(fā)布在GitHub上。

        4. 第四屆全球自動(dòng)駕駛峰會(huì)預(yù)告

        文章最后預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛領(lǐng)域的多個(gè)主題,包括端到端自動(dòng)駕駛創(chuàng)新、城市NOA、自動(dòng)駕駛視覺語言模型和自動(dòng)駕駛世界模型等。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲美女又黄又爽在线观看| 国产在线ts人妖免费视频| 国产亚洲精品一品区99热| 男女男精品网站免费观看| 免费一级毛片正在播放| 久久精品国产亚洲av天美18| 免费观看一级毛片| 亚洲日本VA午夜在线影院| 成全视频在线观看免费高清动漫视频下载 | 小说区亚洲自拍另类| 永久黄网站色视频免费| 亚洲欧洲日产国码久在线| 日产乱码一卡二卡三免费| 日韩成人精品日本亚洲| 亚洲M码 欧洲S码SSS222| 国产在线观看无码免费视频| 亚洲成色在线综合网站| 222www在线观看免费| 国产亚洲sss在线播放| 国产精品免费综合一区视频| 免费夜色污私人影院网站电影| 亚洲女同成人AⅤ人片在线观看| 黄色网页在线免费观看| 亚洲人成电影在在线观看网色| av免费不卡国产观看| 国产精品亚洲精品久久精品| 久久精品国产精品亚洲下载| 久久久久久久99精品免费 | 亚洲精品字幕在线观看| 91精品免费高清在线| 亚洲а∨天堂久久精品9966| 亚洲成人国产精品| 色欲色香天天天综合网站免费 | 中文字幕乱码亚洲精品一区| 亚洲&#228;v永久无码精品天堂久久 | 亚洲一级毛片免费看| 爱情岛亚洲论坛在线观看| 亚洲av永久无码精品古装片| 国产va免费精品观看精品| 免费毛片毛片网址| 亚洲综合男人的天堂色婷婷|