1/30訓練步驟復刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓練方法

復雜獎勵函數不是必要的

原標題：1/30訓練步驟復刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓練方法
文章來源：量子位
內容字數：2237字

階躍星辰與清華聯合發布Open Reasoner Zero (ORZ)：高效的開源大模型推理訓練方法

近日，國內大模型六小強之一的階躍星辰聯手清華大學，發布了名為Open Reasoner Zero (ORZ) 的全新開源大模型。該項目由沈向洋、姜大昕、張祥雨等AI領域知名學者和專家領銜，其高效的訓練方法和令人矚目的結果，迅速引發了廣泛關注。

1. 高效的訓練方法：突破DeepSeek-R1-Zero的訓練效率

與DeepSeek-R1-Zero相比，ORZ在訓練效率上取得了顯著突破。在響應長度方面，ORZ僅需約17% 的訓練步驟就能達到DeepSeek-R1-Zero 671B 的水平；在RL訓練方法方面，ORZ僅需 1/30 的訓練步驟就能達到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要歸功于ORZ采用的極簡主義訓練方法：結合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1，折扣因子γ=1) 和基于規則的獎勵函數，無需復雜的獎勵函數設計。

2. “頓悟時刻”的發現：訓練過程中的涌現現象

ORZ團隊在訓練過程中觀察到一個有趣的現象：在訓練步驟約680步時，模型的訓練獎勵值、反思能力和回答長度同時出現顯著提升，類似于DeepSeek-R1-Zero論文中描述的“頓悟時刻”（aha moment）。這種現象也類似于涌現行為，在以Qwen2.5-Base-7B為基礎模型的實驗中，所有基準測試在某個時間點都會經歷獎勵和響應長度的突然增加。

3. 穩定的訓練：無需KL正則化

ORZ在訓練過程中無需依賴任何基于KL散度的正則化技術，便實現了穩定的訓練。這與RLHF和推理模型領域目前的認知有所不同，為進一步擴大強化學習規模提供了新的希望。

4. 數據的重要性：大規模多樣化數據集是關鍵

研究表明，數據數量和多樣性對ORZ的訓練至關重要。在有限的學術數據集上訓練會導致性能快速達到平臺期，而精心策劃的大規模多樣化數據集能夠實現持續擴展，在訓練集和測試集上都沒有飽和的跡象。在整個訓練過程中，平均正確反思長度始終高于平均響應長度。

5. 優異的性能：超越Qwen2.5 Instruct

最終，ORZ模型在MMLU和MMLU_PRO基準測試中，無需任何額外的指令調整即可超越Qwen2.5 Instruct。

6. 完全開源：促進社區協作

ORZ項目已100% 開源，包括訓練數據、訓練代碼、論文和模型，并采用寬松的MIT許可證，開源48小時內已獲得700多個星標。這將極大地促進社區協作和模型的進一步發展。

總之，Open Reasoner Zero 的發布標志著大模型訓練方法的一次重要突破。其高效的訓練方法、令人驚嘆的性能以及完全開源的特性，為大模型研究和應用帶來了新的可能性，也為國內大模型的發展貢獻了重要力量。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 低資源推理 # 大規模預訓練模型 # 強化學習 # 模型壓縮 # 零樣本學習

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

1/30訓練步驟復刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓練方法

復雜獎勵函數不是必要的

階躍星辰與清華聯合發布Open Reasoner Zero (ORZ)：高效的開源大模型推理訓練方法

1. 高效的訓練方法：突破DeepSeek-R1-Zero的訓練效率

2. “頓悟時刻”的發現：訓練過程中的涌現現象

3. 穩定的訓練：無需KL正則化

4. 數據的重要性：大規模多樣化數據集是關鍵

5. 優異的性能：超越Qwen2.5 Instruct

6. 完全開源：促進社區協作

聯系作者

《科學》重磅：從源頭攻克帕金森病！復旦團隊成功阻斷毒性“種子”傳播

OpenAI 七年霸權為何一夜崩塌？微軟撤資1600億暴露出AI戰爭終極規則：數據即彈藥，推理即戰場

相關文章

暫無評論

ChatGPT

玩虛擬模特？