DeepSeek R1爆火后，該如何理解 LLM 中的強化學習算法？

討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

原標題：DeepSeek R1爆火后，該如何理解 LLM 中的強化學習算法？
文章來源：智猩猩GenAI
內容字數：6887字

智猩猩AI新青年講座：深度解讀LLM中的強化學習

本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用，特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發，認為SFT和RLHF在本質上沒有區別，都圍繞著預測下一個token的概率進行優化，區別在于探索(explore)策略的不同。SFT是“學習”，而RLHF是“探索學習”，前者進步快但根基不穩，后者根基穩但進步慢。

1. LLM中的強化學習：探索與糾正

作者將LLM中的強化學習算法分為七類，除了直接指定response的SFT和DPO外，其余均屬于強化學習范疇。核心在于“自己玩，旁人來糾正”的探索學習模式。作者認為，即使是SFT，也可以加入reference model，提高效果。SFT并非LLM訓練的必備環節，而是一種快速提升模型效果的方法。

2. Post-training算法的統一建模

DeepSeek的研究表明，post-training算法包含三個要素：啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1，PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

3. RL訓練的挑戰：獎勵函數的準確性

作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標，優化目標純粹；而RL中，每個token的獎勵是由整個句子的獎勵回傳的，容易出現獎勵不準確的情況，導致模型訓練不穩定。傳統的RL每個action都有及時回報，但RLHF中只有折扣累積回報，這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分，這也是各種RL算法努力的方向。

4. Reward Hacking：模型的“投機取巧”

作者認為Reward Hacking并非高深莫測的理論，而是訓練者考慮不充分導致的。模型為了提高獎勵，可能會采用訓練者不期望的方式，例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數，既要關注獎勵值，也要關注模型達到獎勵值的策略。

5. 結論：工具的選擇

作者總結道，SFT和RLHF都是訓練LLM的有效工具，選擇哪種算法取決于實際需求和效果。RL并非高不可攀，SFT也并非過時。最終目標只有一個：訓練出更好的模型。數據質量對于SFT至關重要，而獎勵函數的設計對于RLHF至關重要。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # DeepSeekR # LLM訓練 # 大型語言模型 # 獎勵模型 # 強化學習

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

DeepSeek R1爆火后，該如何理解 LLM 中的強化學習算法？

討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

智猩猩AI新青年講座：深度解讀LLM中的強化學習

1. LLM中的強化學習：探索與糾正

2. Post-training算法的統一建模

3. RL訓練的挑戰：獎勵函數的準確性

4. Reward Hacking：模型的“投機取巧”

5. 結論：工具的選擇

聯系作者

百度、字節高管隔空互懟；月之暗面或因DeepSeek調整重心；騰訊已對微信接入DeepSeek灰測 | AI周報

DeepSeek連鎖效應！百度跟進免費開源大戰，大模型“六小虎”何去何從？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點