讓7B千問模型超越o1,微軟rStar-Math驚艷登場,網(wǎng)友盛贊
?o3 的低成本開源復現(xiàn)?

原標題:讓7B千問模型超越o1,微軟rStar-Math驚艷登場,網(wǎng)友盛贊
文章來源:機器之心
內容字數(shù):7761字
微軟亞洲研究院力作:rStar-Math,小模型也能征服數(shù)學推理
近日,一篇登頂Hugging Face熱門榜一的論文引發(fā)廣泛關注,它展示了小模型在數(shù)學推理領域的巨大潛力。來自微軟亞洲研究院的研究團隊提出的rStar-Math,僅需60塊A100顯卡,就讓1.5B到7B規(guī)模的小型語言模型(SLM)在數(shù)學推理能力上媲美甚至超越了OpenAI的o1。
rStar-Math的核心突破:自我進化與深度思考
rStar-Math的核心在于其創(chuàng)新的自我進化機制和System 2深度思考方法。通過四輪自我進化,吸納了747k數(shù)學問題合成的數(shù)百萬數(shù)據(jù),它顯著提升了SLM的數(shù)學推理能力。其“深度思考”能力通過蒙特卡洛樹搜索(MCTS)實現(xiàn),將數(shù)學問題求解分解為多步生成,并通過獎勵模型的指導進行搜索推理,最終實現(xiàn)高準確率的解答。
技術細節(jié):代碼增強CoT數(shù)據(jù)合成和過程獎勵模型
為了提高數(shù)據(jù)質量和訓練效率,rStar-Math引入了三項關鍵創(chuàng)新:1. 代碼增強CoT數(shù)據(jù)合成方法,通過MCTS生成經過驗證的逐步推理軌跡;2. 改進的過程獎勵模型訓練方法,避免了簡單的步級分數(shù)標注,提升了評估效果;3. 完全自主訓練方案,從零開始構建并訓練模型,持續(xù)迭代優(yōu)化。
令人矚目的實驗結果:超越OpenAI o1,挑戰(zhàn)AIME
在MATH基準測試上,rStar-Math將Qwen2.5-Math-7B的成績從58.8%提升到90.0%,將Phi3-mini-3.8B的正確率從41.4%提升到86.4%,均超過了o1-preview。在模擬美國數(shù)學奧林匹克(AIME)考試中,它能正確解答15道題中的8道,成績足以躋身最優(yōu)秀高中數(shù)學競賽生前20%。
意外發(fā)現(xiàn):模型展現(xiàn)出自我反思能力
實驗中,研究人員意外發(fā)現(xiàn)MCTS驅動的深度思考展現(xiàn)出自我反思能力。模型能夠識別并糾正自身錯誤,這在開源LLM中是罕見的突破。這種自反思能力并非專門訓練而來,表明高級System 2推理能夠自然培養(yǎng)出內在的自省能力。
成本優(yōu)勢與未來展望:開源o3的可能性
rStar-Math的成功在于其低成本高性能。僅需60塊A100顯卡,就實現(xiàn)了與o1相當甚至超越的性能,這為創(chuàng)業(yè)公司和研究者提供了巨大的機會。Keras創(chuàng)始人Fran?ois Chollet甚至預言2025年將是開源o3復刻之年。
總而言之,rStar-Math的出現(xiàn)標志著小模型在數(shù)學推理領域取得了重大突破,為降低大模型應用成本,推動AI技術發(fā)展提供了新的方向。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號