不蒸餾R1也能超越DeepSeek，上海 AI Lab 用RL突破數學推理極限

基于結果獎勵的強化學習新范式

原標題：不蒸餾R1也能超越DeepSeek，上海 AI Lab 用RL突破數學推理極限
文章來源：量子位
內容字數：4875字

上海AI Lab突破數學推理瓶頸：強化學習超越蒸餾，無需超大模型

上海AI Lab近日取得重大突破，其基于結果獎勵的強化學習新范式OREAL，在數學推理任務中超越了DeepSeek-R1等超大模型的性能。這項研究顛覆了傳統依賴于蒸餾超大模型的范式，僅通過微調和基于結果反饋的強化學習，便在7B和32B模型上取得了令人矚目的成果。

1. 挑戰“三重門”：數學推理的困境

當前大模型數學推理面臨“三重門”困境：稀疏獎勵困境（僅有最終答案的二元反饋）、局部正確陷阱（部分正確步驟可能誤導模型）以及規模依賴魔咒（依賴超大模型蒸餾）。

2. OREAL：重新定義結果獎勵強化學習

為了解決這些難題，上海AI Lab團隊重新設計了結果獎勵強化學習算法OREAL。該算法的核心在于對正負樣本和長序列的處理策略：

正樣本：利用最佳軌跡采樣（BoN）的行為克隆，學習最優策略。
負樣本：采用獎勵重塑，維護策略優化目標的一致性，避免梯度偏差。
長序列：設計token重要性估計器，構建序列累計形式的獎勵函數，實現更細粒度的獎勵分配，精確定位核心錯誤步驟。

OREAL的策略可以概括為：在正確樣本上模仿學習，在錯誤樣本上偏好學習，對關鍵步驟做重點學習。

3. 實驗結果：超越DeepSeek-R1及其他模型

在7B和32B模型上，OREAL僅使用4000條高質量訓練樣本，便取得了顯著成果：Oreal-7B在MATH-500上達到91.0的pass@1準確率，超越了QWQ-32B-Preview和OpenAI-O1-Mini；Oreal-32B在MATH-500上達到95.0的分數，超越了DeepSeek-r1-Distill-Qwen-32B。將OREAL應用于DeepSeek-r1-Distill-Qwen-7B后，更是創下了7B模型的新記錄(94.0 pass@1精度)。