本文對幾個主流的開源模型系列采用的RL策略進行探討和總結。
原標題:從DeepSeek到LLaMA,主流開源LLM的RL策略深討
文章來源:智猩猩GenAI
內容字數:5597字
開源LLM模型的RLHF策略對比
本文總結了DeepSeek、Qwen和LLaMA等主流開源大模型在強化學習自適應微調(RLHF)階段的不同策略和實現方法。RLHF是提升LLM與人類偏好一致性的關鍵環節,這些模型在策略選擇和工程實現上各有特點。
1. 算法選擇:GRPO/PPO與DPO之爭
1. 在強化學習算法選擇上,目前GRPO、PPO和DPO三者之間沒有絕對的優劣之分。DeepSeek系列偏向于使用GRPO,Qwen系列則結合了DPO和PPO(或GRPO),而LLaMA系列則更傾向于使用DPO。
2. DeepSeek早期使用DPO,后轉向PPO,最終采用GRPO。GRPO通過估計基線值來優化策略模型,省去了critic model。DeepSeek-V3還引入了self-rewarding策略,讓模型能夠自我改進。
3. Qwen系列從PPO過渡到DPO,并結合離線和在線訓練階段。Qwen2.5-Coder僅使用離線DPO,結合代碼沙箱和LLM-as-judge方法評估代碼質量。
4. LLaMA系列采用迭代式策略,結合Rejection Sampling和PPO(或DPO)進行優化,通過多次采樣和選擇逐步提升模型性能。LLaMA-3系列則改用DPO,并對Reward Model的訓練方法進行了調整。
2. 獎勵模型(RM)的重要性
1. 無論采用哪種強化學習算法,獎勵模型(RM)都是至關重要的。即使使用DPO,也需要RM進行Rejection Sampling來選擇高質量的訓練樣本。
2. 各個模型在每次更新中都對RM的優化進行了改進,包括rule-based RM和model-based RM的并重,以及利用思維鏈(CoT)數據來增強RM的可靠性。
3. RL階段的必要性
1. 簡單的監督微調(SFT)已經不足以滿足對LLM能力的要求,尤其是在代碼生成和數學推理等強推理場景下。
2. RL階段的訓練能夠顯著提升模型的性能,例如在DeepSeek-V2中,RL階段的訓練顯著提升了模型在數學和代碼任務上的表現。
3. 然而,RL訓練也可能帶來“對齊稅”,即模型在某些標準基準測試上的性能下降,這需要在模型性能和人類偏好對齊之間進行權衡。
4. 各模型RLHF策略總結
1. **DeepSeek:** 從DPO到PPO,最終采用GRPO,并結合rule-based和model-based RM,以及self-rewarding策略。
2. **Qwen:** 從PPO到DPO,結合離線和在線訓練階段,Qwen2.5-Coder則只使用離線DPO。
3. **LLaMA:** 采用迭代式策略,結合Rejection Sampling和PPO/DPO,逐步提升模型性能。
總而言之,開源LLM模型在RLHF策略上不斷探索和改進,未來可能會有更多高效且有效的策略出現,以提升LLM的性能和與人類偏好的一致性。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。