?o3 的低成本開源復現?
原標題:讓7B千問模型超越o1,微軟rStar-Math驚艷登場,網友盛贊
文章來源:機器之心
內容字數:7761字
微軟亞洲研究院力作:rStar-Math,小模型也能征服數學推理
近日,一篇登頂Hugging Face熱門榜一的論文引發廣泛關注,它展示了小模型在數學推理領域的巨大潛力。來自微軟亞洲研究院的研究團隊提出的rStar-Math,僅需60塊A100顯卡,就讓1.5B到7B規模的小型語言模型(SLM)在數學推理能力上媲美甚至超越了OpenAI的o1。
rStar-Math的核心突破:自我進化與深度思考
rStar-Math的核心在于其創新的自我進化機制和System 2深度思考方法。通過四輪自我進化,吸納了747k數學問題合成的數百萬數據,它顯著提升了SLM的數學推理能力。其“深度思考”能力通過蒙特卡洛樹搜索(MCTS)實現,將數學問題求解分解為多步生成,并通過獎勵模型的指導進行搜索推理,最終實現高準確率的解答。
技術細節:代碼增強CoT數據合成和過程獎勵模型
為了提高數據質量和訓練效率,rStar-Math引入了三項關鍵創新:1. 代碼增強CoT數據合成方法,通過MCTS生成經過驗證的逐步推理軌跡;2. 改進的過程獎勵模型訓練方法,避免了簡單的步級分數標注,提升了評估效果;3. 完全自主訓練方案,從零開始構建并訓練模型,持續迭代優化。
令人矚目的實驗結果:超越OpenAI o1,挑戰AIME
在MATH基準測試上,rStar-Math將Qwen2.5-Math-7B的成績從58.8%提升到90.0%,將Phi3-mini-3.8B的正確率從41.4%提升到86.4%,均超過了o1-preview。在模擬美國數學奧林匹克(AIME)考試中,它能正確解答15道題中的8道,成績足以躋身最優秀高中數學競賽生前20%。
意外發現:模型展現出自我反思能力
實驗中,研究人員意外發現MCTS驅動的深度思考展現出自我反思能力。模型能夠識別并糾正自身錯誤,這在開源LLM中是罕見的突破。這種自反思能力并非專門訓練而來,表明高級System 2推理能夠自然培養出內在的自省能力。
成本優勢與未來展望:開源o3的可能性
rStar-Math的成功在于其低成本高性能。僅需60塊A100顯卡,就實現了與o1相當甚至超越的性能,這為創業公司和研究者提供了巨大的機會。Keras創始人Fran?ois Chollet甚至預言2025年將是開源o3復刻之年。
總而言之,rStar-Math的出現標志著小模型在數學推理領域取得了重大突破,為降低大模型應用成本,推動AI技術發展提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺