讓Qwen2.5 7B超越o1，微軟干的！MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

共同一作為MSRA實(shí)習(xí)生、北大er

原標(biāo)題：讓Qwen2.5 7B超越o1，微軟干的！MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：8751字

本文總結(jié)了微軟亞洲研究院（MSRA）最新研發(fā)的rStar-Math算法，該算法顯著提升了小語言模型（SLM）的數(shù)學(xué)推理能力，甚至在某些方面超越了大型模型。文章還預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)。

rStar-Math的核心在于通過蒙特卡洛樹搜索（MCTS）和三項(xiàng)創(chuàng)新方法，讓小模型在不依賴大型教師模型的情況下，通過多輪自我進(jìn)化，掌握數(shù)學(xué)推理能力：

代碼增強(qiáng)CoT數(shù)據(jù)合成方法：該方法利用MCTS生成具有自我注釋的推理軌跡，并生成對(duì)應(yīng)的Python代碼進(jìn)行驗(yàn)證，確保每一步推理的正確性，減少錯(cuò)誤步驟。
過程獎(jiǎng)勵(lì)模型訓(xùn)練方法：通過引入過程偏好模型（PPM），可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測(cè)獎(jiǎng)勵(lì)標(biāo)簽，即使Q值不精確也能有效區(qū)分正確和錯(cuò)誤步驟。
四輪自我思維深度進(jìn)化：通過四輪迭代，逐步生成更高質(zhì)量的數(shù)據(jù)，并通過更具挑戰(zhàn)性的數(shù)學(xué)問題擴(kuò)展訓(xùn)練集，不斷提升模型能力。

這三項(xiàng)創(chuàng)新有效解決了現(xiàn)有方法中高質(zhì)量數(shù)據(jù)稀缺、訓(xùn)練過程容易出錯(cuò)等難題，使得小模型能夠進(jìn)行深度思考，并逐步提升數(shù)學(xué)推理能力。

實(shí)驗(yàn)結(jié)果顯示，rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力，在多個(gè)基準(zhǔn)測(cè)試中取得了優(yōu)異的成績(jī)：

在MATH基準(zhǔn)測(cè)試中，將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升到90.0%，Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%提升到87.8%，均超越了OpenAI o1-preview。
在美國(guó)數(shù)學(xué)競(jìng)賽AIME 2024測(cè)試中，Qwen2.5-Math-7B的平均解題率達(dá)到53.3%，超過所有其他開源大模型，躋身最聰明高中生數(shù)學(xué)前20%。
在其他具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測(cè)試（如College Math、奧賽基準(zhǔn)、中國(guó)高考數(shù)學(xué)考試）中也表現(xiàn)出色，展現(xiàn)了其通用性。

實(shí)驗(yàn)結(jié)果驗(yàn)證了rStar-Math的有效性，也表明在固定計(jì)算預(yù)算下，小模型在某些推理問題上可以超越大型模型。

rStar-Math論文的共同一作分別來自微軟亞洲研究院和北京大學(xué)、清華大學(xué)的實(shí)習(xí)生。論文已上傳至arXiv，代碼和數(shù)據(jù)也已公開發(fā)布在GitHub上。

文章最后預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)，峰會(huì)將涵蓋自動(dòng)駕駛領(lǐng)域的多個(gè)主題，包括端到端自動(dòng)駕駛創(chuàng)新、城市NOA、自動(dòng)駕駛視覺語言模型和自動(dòng)駕駛世界模型等。

文章來源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下公眾號(hào)之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論...