從DeepSeek到LLaMA，主流開源LLM的RL策略深討

本文對幾個主流的開源模型系列采用的RL策略進行探討和總結。

原標題：從DeepSeek到LLaMA，主流開源LLM的RL策略深討
文章來源：智猩猩GenAI
內容字數：5597字

本文總結了DeepSeek、Qwen和LLaMA等主流開源大模型在強化學習自適應微調（RLHF）階段的不同策略和實現方法。RLHF是提升LLM與人類偏好一致性的關鍵環節，這些模型在策略選擇和工程實現上各有特點。

1. 在強化學習算法選擇上，目前GRPO、PPO和DPO三者之間沒有絕對的優劣之分。DeepSeek系列偏向于使用GRPO，Qwen系列則結合了DPO和PPO（或GRPO），而LLaMA系列則更傾向于使用DPO。

2. DeepSeek早期使用DPO，后轉向PPO，最終采用GRPO。GRPO通過估計基線值來優化策略模型，省去了critic model。DeepSeek-V3還引入了self-rewarding策略，讓模型能夠自我改進。

3. Qwen系列從PPO過渡到DPO，并結合離線和在線訓練階段。Qwen2.5-Coder僅使用離線DPO，結合代碼沙箱和LLM-as-judge方法評估代碼質量。

4. LLaMA系列采用迭代式策略，結合Rejection Sampling和PPO（或DPO）進行優化，通過多次采樣和選擇逐步提升模型性能。LLaMA-3系列則改用DPO，并對Reward Model的訓練方法進行了調整。

1. 無論采用哪種強化學習算法，獎勵模型(RM)都是至關重要的。即使使用DPO，也需要RM進行Rejection Sampling來選擇高質量的訓練樣本。

2. 各個模型在每次更新中都對RM的優化進行了改進，包括rule-based RM和model-based RM的并重，以及利用思維鏈(CoT)數據來增強RM的可靠性。

1. 簡單的監督微調(SFT)已經不足以滿足對LLM能力的要求，尤其是在代碼生成和數學推理等強推理場景下。

2. RL階段的訓練能夠顯著提升模型的性能，例如在DeepSeek-V2中，RL階段的訓練顯著提升了模型在數學和代碼任務上的表現。

3. 然而，RL訓練也可能帶來“對齊稅”，即模型在某些標準基準測試上的性能下降，這需要在模型性能和人類偏好對齊之間進行權衡。

1. **DeepSeek:** 從DPO到PPO，最終采用GRPO，并結合rule-based和model-based RM，以及self-rewarding策略。

2. **Qwen:** 從PPO到DPO，結合離線和在線訓練階段，Qwen2.5-Coder則只使用離線DPO。

3. **LLaMA:** 采用迭代式策略，結合Rejection Sampling和PPO/DPO，逐步提升模型性能。

總而言之，開源LLM模型在RLHF策略上不斷探索和改進，未來可能會有更多高效且有效的策略出現，以提升LLM的性能和與人類偏好的一致性。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...