復現DeepSeek Zero的RL調參經驗

關于zero-rl的碎碎念和想法

原標題：復現DeepSeek Zero的RL調參經驗
文章來源：智猩猩GenAI
內容字數：7366字

智猩猩DeepSeek大解讀：基于Base模型的強化學習

本文總結了haotian在知乎發表的文章，探討了基于Base模型的強化學習（RL）方法，相較于傳統的cold-start-SFT->RL流程，作者更推崇直接在Base模型上進行RL。

1. 基于Base模型的RL的理論優勢

1.1 作者將PPO算法解釋為貝葉斯推理，并推導出殘差能量模型的形式。這使得問題轉化為如何高效地從最優分布中采樣。方法包括：使用帶參數的策略逼近最優分布（方法1，即傳統的RL方法及其變種）；使用高效的MCMC采樣方法從最優分布中采樣（方法2）。方法1除了傳統的RL方法，還可以使用其他能量模型的參數估計方法。

1.2 過去基于SFT模型的RL效果不佳的原因在于Base模型的質量和RL搜索空間巨大，導致優化復雜度高。但隨著預訓練模型的改進（例如加入更多推理數據），在Base模型上進行zero-RL變得更可行且有效。

2. 基于Base模型的RL的實踐挑戰

2.1 LLM的RL與傳統RL不同，LLM產生響應并獲得獎勵的過程缺乏與環境的多步交互，更像是一個bandit問題。并且，LLM本身經過預訓練和微調，并非純粹的預訓練模型。

2.2 傳統RL的技巧在LLM上適用性存疑。許多傳統RL技巧是在隨機初始化模型上使用的，LLM的預訓練特性使得這些技巧的必要性降低。

2.3 除了RL，其他生成模型的優化方法和MCMC采樣也可能適用于LLM，同樣需要評估傳統技巧的適用性和必要性。

3. 基于Base模型的RL的實際指導意義

3.1 直接在Base模型上進行RL，相當于用帶參數的分布擬合最優分布。這為Base模型的優化提供了新方向：分析最優分布采樣樣本的模式和效果，修正Base模型的數據分布，提升數據分布覆蓋率，糾正模型的頑固特性。

3.2 基于Base模型RL得到的答案更貼合Base模型的分布特征，因此基于此數據集進行SFT，應該能得到更好的Instruction模型。

4. zero-RL的復現關鍵點

4.1 訓練穩定性：需要穩定訓練上千個步驟，而非僅僅幾個步驟。

4.2 獎勵和響應長度的同步增長：如果響應長度不增長，則會退化為傳統的短文本Instruction模型的RL，效果有限。

4.3 rule-verified的獎勵模型：使用rule-verified的PPO驗證至關重要。如果無法實現持續增長，則使用更復雜的獎勵模型（例如BT-RM）的優化將更加困難。

4.4 與現有模型的對比：在32B模型上達到與DeepSeek-R1技術報告中Qwen-25-32b-zero相當的效果，是一個可比的基線。

5. 實驗結果與結論

5.1 在7B-32B模型上的實驗表明，不同的RL算法差異不顯著，超參數調整（例如學習率、預熱步數）影響有限。

5.2 KL約束會限制模型的探索，在Base模型上的RL，早期探索更為重要。移除KL約束后，模型表現更好，reward和response長度同步增長。

5.3 Prompt模板對結果影響較大，不合適的模板可能訓練出類似Instruction風格的模型。

5.4 最樸素的方法（例如Reinforce）可能最有效。

6. 未來展望

6.1 結合環境交互的RL框架是一個重要的方向，但需要構建合適的環境。

6.2 其他生成模型的優化/采樣方法（例如EBM）也值得探索。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # DeepSeekZero調參 # 分布式強化學習訓練 # 強化學習超參數優化 # 深度強化學習算法改進 # 游戲AI強化學習

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

復現DeepSeek Zero的RL調參經驗

關于zero-rl的碎碎念和想法

智猩猩DeepSeek大解讀：基于Base模型的強化學習

1. 基于Base模型的RL的理論優勢

2. 基于Base模型的RL的實踐挑戰

3. 基于Base模型的RL的實際指導意義

4. zero-RL的復現關鍵點

5. 實驗結果與結論

6. 未來展望

聯系作者

高熵合金新發現！多團隊聯手實現抗氧化性高精度預測，增加鋁/鉻/硅含量可有效改善

不卡頓、免費的滿血版DeepSeek-R1 API，在無問芯穹這里用上了，更有異構算力鼎力相助

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點