相信屬于RLer的時刻應該會到來的吧!
原標題:以RLer視角看DeepSeek訓練中的強化學習
文章來源:智猩猩GenAI
內容字數:5933字
智猩猩AI新青年講座:DeepSeek R1與推理模型專題
本文總結了知乎文章《DeepScaleR:強化學習讓小模型推理超越o1-preview》,該文由南棲仙策算法副總裁趙鑒博士授權發布,探討了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程。
1. 大模型訓練的問題定義
文章指出,現有文獻很少明確定義大模型訓練的問題。作者嘗試從現有信息中提煉出問題定義:輸入為自監督+SFT訓練好的初始模型和人類偏好數據(Q,A1,A2),問題庫(Q);輸出為一個新模型。作者進一步簡化,將輸入替換為基于人類偏好數據訓練好的獎勵模型和問題庫(Q),輸出為一個模型。這與傳統強化學習問題定義有所不同,后者包含狀態轉移函數,而大模型訓練中狀態轉移函數不明確。
2. 大模型中的問題建模
文章探討了兩種大模型問題建模方式:第一種將狀態定義為問題Q,動作定義為生成回答中的下一個token,獎勵為最后一步的獎勵;第二種將狀態定義為問題Q,動作定義為回答A,獎勵為一步決策的獎勵。作者認為,第二種建模方式更常見,但并非嚴格的強化學習問題,因為它缺少序列決策過程。作者將此類方法類比于早期將強化學習應用于CV或NLP任務的做法,直接使用不可導的評價指標作為獎勵進行優化。
3. DeepSeek訓練中使用的強化學習算法(GRPO)
文章分析了DeepSeek訓練中使用的GRPO算法。作者認為GRPO可以理解為策略梯度算法Reinforce的改進版本,結合了PPO算法中對公式后半項的改進,但并非一個非常創新的算法。GRPO通過多次采樣,解決了傳統強化學習環境中單次采樣的限制,并由于大模型環境的確定性,避免了使用價值網絡和方差減小策略。
4. 強化學習在大模型中的應用與展望
文章最后探討了強化學習在大模型訓練中的應用現狀,指出目前只有少數RLer參與核心工作。作者建議,RLer應更多地從問題定義出發,例如將01稀疏獎勵問題建模為類似圍棋的模式,才能更好地發揮RL算法的優勢。同時,推理側可以結合MCTS等技術。文章以游戲AI為例,說明了高階RL算法工程師在實際應用中并非總是必需的。
總而言之,文章深入淺出地分析了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程,并對強化學習算法工程師未來的發展方向提出了建議。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。