這是階躍星辰 Step 系列模型家族的首個推理模型。
原標題:剛剛,階躍星辰發布Step R-mini!推理模型從此不再文理偏科
文章來源:機器之心
內容字數:4404字
國產推理大模型Step Reasoner mini強勢來襲
國產大模型“六小虎”成員階躍星辰發布了其首個推理模型Step Reasoner mini(Step R-mini),在多個基準測試中達到SOTA水平,甚至超越了OpenAI的o1-mini模型。該模型具備強大的超長推理能力,能夠解決邏輯推理、代碼、數學等復雜問題,同時也能勝任文學創作等通用任務,實現“文理兼修”。
1. Step R-mini 的核心能力與優勢
Step R-mini 通過在推理階段增加計算量,結合思維鏈等技術,實現了“慢思考”,能夠主動規劃、嘗試和反思,最終提供準確可靠的回復。其強大的推理能力源于高比例的強化學習(RL)訓練,以及在數據質量、測試時計算、模型大小等方面的全面Scaling,充分驗證了Scaling Law的有效性。 它在AIME 2024和Math500數學基準測試中均達到SOTA水平,在LiveCodeBench代碼任務上也超過了o1-preview。
2. “文理兼修”的體現
Step R-mini 不僅能出色地完成數學、代碼和邏輯推理等任務,還能進行富有創意的文學創作和日常。例如,它能夠準確解答古詩詞相關的算術問題,并解決復雜的數學題,同時還能進行富有創意的翻譯和中文名生成,展現了其強大的“文理兼修”能力。
3. Step R-mini 的訓練方法
Step R-mini 的訓練采用了大規模強化學習,并使用了On-Policy強化學習算法。階躍星辰在模型訓練過程中堅持Scaling Law原則,包括Scaling強化學習、Scaling數據質量、Scaling Test-Time Compute和Scaling模型大小,從而提升了模型的推理能力。尤其值得一提的是,在測試階段,System 2范式使Step R-mini能夠進行高達50,000規模的思考token,實現了深度思考。
4. 視覺推理模型的未來展望
除了語言推理模型,階躍星辰還在開發視覺推理模型,旨在將推理能力融入更多交互形態的大模型中。該視覺推理模型將通過“慢感知”和空間推理,實現真正的視覺領域推理,而非僅僅基于圖像的文字推理。初步展示的案例表明,該模型能夠解答圖中題目、進行空間推理以及識別圖像中的數字對應關系,展現了其巨大的潛力。
5. 總結
Step Reasoner mini的出現標志著國內大模型在推理能力方面取得了顯著進展。其“文理兼修”的能力和強大的推理能力,為未來大模型的發展提供了新的方向。 階躍星辰在Scaling Law上的堅持和對視覺推理模型的探索,也為大模型技術的持續創新提供了有力支撐。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺