讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
共同一作為MSRA實(shí)習(xí)生、北大er
原標(biāo)題:讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):8751字
微軟rStar-Math算法:賦能小模型數(shù)學(xué)推理能力
本文總結(jié)了微軟亞洲研究院(MSRA)最新研發(fā)的rStar-Math算法,該算法顯著提升了小語言模型(SLM)的數(shù)學(xué)推理能力,甚至在某些方面超越了大型模型。文章還預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)。
1. rStar-Math算法的核心創(chuàng)新
rStar-Math的核心在于通過蒙特卡洛樹搜索(MCTS)和三項(xiàng)創(chuàng)新方法,讓小模型在不依賴大型教師模型的情況下,通過多輪自我進(jìn)化,掌握數(shù)學(xué)推理能力:
- 代碼增強(qiáng)CoT數(shù)據(jù)合成方法:該方法利用MCTS生成具有自我注釋的推理軌跡,并生成對(duì)應(yīng)的Python代碼進(jìn)行驗(yàn)證,確保每一步推理的正確性,減少錯(cuò)誤步驟。
- 過程獎(jiǎng)勵(lì)模型訓(xùn)練方法:通過引入過程偏好模型(PPM),可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測獎(jiǎng)勵(lì)標(biāo)簽,即使Q值不精確也能有效區(qū)分正確和錯(cuò)誤步驟。
- 四輪自我思維深度進(jìn)化:通過四輪迭代,逐步生成更高質(zhì)量的數(shù)據(jù),并通過更具挑戰(zhàn)性的數(shù)學(xué)問題擴(kuò)展訓(xùn)練集,不斷提升模型能力。
這三項(xiàng)創(chuàng)新有效解決了現(xiàn)有方法中高質(zhì)量數(shù)據(jù)稀缺、訓(xùn)練過程容易出錯(cuò)等難題,使得小模型能夠進(jìn)行深度思考,并逐步提升數(shù)學(xué)推理能力。
2. 實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)
實(shí)驗(yàn)結(jié)果顯示,rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力,在多個(gè)基準(zhǔn)測試中取得了優(yōu)異的成績:
- 在MATH基準(zhǔn)測試中,將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升到90.0%,Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%提升到87.8%,均超越了OpenAI o1-preview。
- 在美國數(shù)學(xué)競賽AIME 2024測試中,Qwen2.5-Math-7B的平均解題率達(dá)到53.3%,超過所有其他開源大模型,躋身最聰明高中生數(shù)學(xué)前20%。
- 在其他具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試(如College Math、奧賽基準(zhǔn)、中國高考數(shù)學(xué)考試)中也表現(xiàn)出色,展現(xiàn)了其通用性。
實(shí)驗(yàn)結(jié)果驗(yàn)證了rStar-Math的有效性,也表明在固定計(jì)算預(yù)算下,小模型在某些推理問題上可以超越大型模型。
3. rStar-Math團(tuán)隊(duì)及論文信息
rStar-Math論文的共同一作分別來自微軟亞洲研究院和北京大學(xué)、清華大學(xué)的實(shí)習(xí)生。論文已上傳至arXiv,代碼和數(shù)據(jù)也已公開發(fā)布在GitHub上。
4. 第四屆全球自動(dòng)駕駛峰會(huì)預(yù)告
文章最后預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛領(lǐng)域的多個(gè)主題,包括端到端自動(dòng)駕駛創(chuàng)新、城市NOA、自動(dòng)駕駛視覺語言模型和自動(dòng)駕駛世界模型等。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。