MetaStone-S1

MetaStone-S1 – 原石科技推出的反思型生成式大模型

MetaStone-S1是原石科技推出的一款具有創新性的反思型生成式大模型，它首次融合了深度推理與推理鏈自篩選能力。該模型的核心在于自監督反思范式，采用共享主干的策略模型和過程評分模型（SPRM），通過僅增加53M參數即可實時評估推理步驟質量，無需人工標注。 MetaStone-S1支持Long-CoT強化學習，能夠生成超長推理鏈，并在數學、代碼和中文推理任務中展現出優越性能。

MetaStone-S1：開啟“自我修正”推理新篇章

原石科技隆重推出MetaStone-S1，一款顛覆傳統的生成式大模型。它不僅具備強大的推理能力，更獨具“自我修正”的智慧，引領推理智能步入新紀元。

核心功能：

深度推理引擎：MetaStone-S1能夠構建超長且復雜的推理鏈，尤其擅長解決數學證明、程序算法等高難度問題。
智能鏈條優化：內置自監督過程評分機制（SPRM），能夠自動識別并剔除推理過程中的錯誤步驟，從而顯著提高答案的準確性。
多模式推理：提供Low（快速）、Medium（平衡）、High（深度）三種工作模式，滿足不同場景下的推理需求。
開放生態：全面開源1.5B、7B、32B三種規模模型及配套工具，方便開發者在特定領域進一步優化模型的推理能力。

技術亮點：

雙頭共享架構：策略模型（Policy Model）和過程評分模型（SPRM）共享主干網絡，Transformer層上并行部署生成頭和評分頭。前者負責生成推理鏈，后者則基于自監督學習對每個推理步驟進行實時評分。
自監督過程獎勵：采用SPR Loss（自監督過程獎勵損失）算法，利用最終答案的正確性作為弱監督信號，通過噪聲過濾機制自動生成步驟級偽標簽，實現過程評分模型的訓練，擺脫了對人工標注的依賴。
動態推理擇優：在推理階段運用Test-Time Scaling技術：首先生成多條候選推理鏈（例如High模式生成32條），然后利用SPRM計算路徑總分，最終選擇最優路徑繼續生成，形成“生成-評估-擇優”的閉環。
協同優化機制：基于GRPO強化學習算法，同步優化策略模型和SPRM。策略模型旨在最大化答案正確率，而SPRM則通過對比學習區分優質/低質推理步驟，兩者共享梯度，實現協同進化。
涌現能力調控：設計思考長度與模型性能的Scaling Law，通過調整rollout次數控制計算量（參數量×思考token數），實現從快速響應（Low）到深度思考（High）的平滑過渡。