讓7B千問模型超越o1，微軟rStar-Math驚艷登場，網友盛贊

?o3 的低成本開源復現？

原標題：讓7B千問模型超越o1，微軟rStar-Math驚艷登場，網友盛贊
文章來源：機器之心
內容字數：7761字

微軟亞洲研究院力作：rStar-Math，小模型也能征服數學推理

近日，一篇登頂Hugging Face熱門榜一的論文引發廣泛關注，它展示了小模型在數學推理領域的巨大潛力。來自微軟亞洲研究院的研究團隊提出的rStar-Math，僅需60塊A100顯卡，就讓1.5B到7B規模的小型語言模型（SLM）在數學推理能力上媲美甚至超越了OpenAI的o1。

rStar-Math的核心突破：自我進化與深度思考
rStar-Math的核心在于其創新的自我進化機制和System 2深度思考方法。通過四輪自我進化，吸納了747k數學問題合成的數百萬數據，它顯著提升了SLM的數學推理能力。其“深度思考”能力通過蒙特卡洛樹搜索（MCTS）實現，將數學問題求解分解為多步生成，并通過獎勵模型的指導進行搜索推理，最終實現高準確率的解答。
技術細節：代碼增強CoT數據合成和過程獎勵模型
為了提高數據質量和訓練效率，rStar-Math引入了三項關鍵創新：1. 代碼增強CoT數據合成方法，通過MCTS生成經過驗證的逐步推理軌跡；2. 改進的過程獎勵模型訓練方法，避免了簡單的步級分數標注，提升了評估效果；3. 完全自主訓練方案，從零開始構建并訓練模型，持續迭代優化。
令人矚目的實驗結果：超越OpenAI o1，挑戰AIME
在MATH基準測試上，rStar-Math將Qwen2.5-Math-7B的成績從58.8%提升到90.0%，將Phi3-mini-3.8B的正確率從41.4%提升到86.4%，均超過了o1-preview。在模擬美國數學奧林匹克（AIME）考試中，它能正確解答15道題中的8道，成績足以躋身最優秀高中數學競賽生前20%。
意外發現：模型展現出自我反思能力
實驗中，研究人員意外發現MCTS驅動的深度思考展現出自我反思能力。模型能夠識別并糾正自身錯誤，這在開源LLM中是罕見的突破。這種自反思能力并非專門訓練而來，表明高級System 2推理能夠自然培養出內在的自省能力。
成本優勢與未來展望：開源o3的可能性
rStar-Math的成功在于其低成本高性能。僅需60塊A100顯卡，就實現了與o1相當甚至超越的性能，這為創業公司和研究者提供了巨大的機會。Keras創始人Fran?ois Chollet甚至預言2025年將是開源o3復刻之年。

總而言之，rStar-Math的出現標志著小模型在數學推理領域取得了重大突破，為降低大模型應用成本，推動AI技術發展提供了新的方向。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 7B千問模型 # AI數學推理能力 # 參數規模與性能 # 大模型數學能力 # 超越o1微軟rStar-Math

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

讓7B千問模型超越o1，微軟rStar-Math驚艷登場，網友盛贊

?o3 的低成本開源復現？

微軟亞洲研究院力作：rStar-Math，小模型也能征服數學推理

rStar-Math的核心突破：自我進化與深度思考

技術細節：代碼增強CoT數據合成和過程獎勵模型

令人矚目的實驗結果：超越OpenAI o1，挑戰AIME

意外發現：模型展現出自我反思能力

成本優勢與未來展望：開源o3的可能性

聯系作者

REDMI Turbo 4：首發天璣 8400 Ultra，主打性能還有大電池 | 新品畫報

通義萬相首創生成漢字視頻，全面進化稱霸VBench！AI視頻GPT-3時刻來臨

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

讓7B千問模型超越o1，微軟rStar-Math驚艷登場，網友盛贊

?o3 的低成本開源復現？

微軟亞洲研究院力作：rStar-Math，小模型也能征服數學推理

rStar-Math的核心突破：自我進化與深度思考

技術細節：代碼增強CoT數據合成和過程獎勵模型

令人矚目的實驗結果：超越OpenAI o1，挑戰AIME

意外發現：模型展現出自我反思能力

成本優勢與未來展望：開源o3的可能性

聯系作者

REDMI Turbo 4：首發天璣 8400 Ultra，主打性能還有大電池 | 新品畫報

通義萬相首創生成漢字視頻，全面進化稱霸VBench！AI視頻GPT-3時刻來臨

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

?o3 的低成本開源復現？

令人矚目的實驗結果：超越OpenAI o1，挑戰AIME