以RLer視角看DeepSeek訓練中的強化學習

相信屬于RLer的時刻應該會到來的吧！

原標題：以RLer視角看DeepSeek訓練中的強化學習
文章來源：智猩猩GenAI
內容字數：5933字

智猩猩AI新青年講座：DeepSeek R1與推理模型專題

本文總結了知乎文章《DeepScaleR：強化學習讓小模型推理超越o1-preview》，該文由南棲仙策算法副總裁趙鑒博士授權發布，探討了強化學習在大模型訓練中的應用，特別是DeepSeek模型的訓練過程。

1. 大模型訓練的問題定義

文章指出，現有文獻很少明確定義大模型訓練的問題。作者嘗試從現有信息中提煉出問題定義：輸入為自監督+SFT訓練好的初始模型和人類偏好數據（Q，A1，A2），問題庫（Q）；輸出為一個新模型。作者進一步簡化，將輸入替換為基于人類偏好數據訓練好的獎勵模型和問題庫（Q），輸出為一個模型。這與傳統強化學習問題定義有所不同，后者包含狀態轉移函數，而大模型訓練中狀態轉移函數不明確。

2. 大模型中的問題建模

文章探討了兩種大模型問題建模方式：第一種將狀態定義為問題Q，動作定義為生成回答中的下一個token，獎勵為最后一步的獎勵；第二種將狀態定義為問題Q，動作定義為回答A，獎勵為一步決策的獎勵。作者認為，第二種建模方式更常見，但并非嚴格的強化學習問題，因為它缺少序列決策過程。作者將此類方法類比于早期將強化學習應用于CV或NLP任務的做法，直接使用不可導的評價指標作為獎勵進行優化。

3. DeepSeek訓練中使用的強化學習算法(GRPO)

文章分析了DeepSeek訓練中使用的GRPO算法。作者認為GRPO可以理解為策略梯度算法Reinforce的改進版本，結合了PPO算法中對公式后半項的改進，但并非一個非常創新的算法。GRPO通過多次采樣，解決了傳統強化學習環境中單次采樣的限制，并由于大模型環境的確定性，避免了使用價值網絡和方差減小策略。

4. 強化學習在大模型中的應用與展望

文章最后探討了強化學習在大模型訓練中的應用現狀，指出目前只有少數RLer參與核心工作。作者建議，RLer應更多地從問題定義出發，例如將01稀疏獎勵問題建模為類似圍棋的模式，才能更好地發揮RL算法的優勢。同時，推理側可以結合MCTS等技術。文章以游戲AI為例，說明了高階RL算法工程師在實際應用中并非總是必需的。

總而言之，文章深入淺出地分析了強化學習在大模型訓練中的應用，特別是DeepSeek模型的訓練過程，并對強化學習算法工程師未來的發展方向提出了建議。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # DeepSeek獎勵函數設計 # DeepSeek強化學習 # DeepSeek超參數優化 # RL算法DeepSeek應用 # 深度強化學習訓練技巧

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

以RLer視角看DeepSeek訓練中的強化學習

相信屬于RLer的時刻應該會到來的吧！

智猩猩AI新青年講座：DeepSeek R1與推理模型專題

1. 大模型訓練的問題定義

2. 大模型中的問題建模

3. DeepSeek訓練中使用的強化學習算法(GRPO)

4. 強化學習在大模型中的應用與展望

聯系作者

中外大模型加速開源+免費！文心一言降本大揭秘，GPT-5緊追

當微信杠上 DeepSeek：這波操作讓 AI 圈徹底炸鍋了！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點