匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。
原標題:從Llama3.1到DeepSeek-V3,大模型Post-Training總結!
文章來源:智猩猩GenAI
內容字數:14490字
Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5后訓練技術總結
本文總結了Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5四個大型語言模型的后訓練(Post-Training)技術,重點關注其數據、策略和超參數選擇。
1. Llama 3.1: 迭代式后訓練
Llama 3.1采用迭代式后訓練,共進行6輪。每輪包含獎勵建模(Reward Modeling,RM)、拒絕采樣(Rejection Sampling)、監督微調(Supervised Fine-tuning,SFT)和直接偏好優化(Direct Preference Optimization,DPO)四個步驟。
- 數據:SFT數據由拒絕采樣結果、合成數據和少量人工標注數據構成;Preference數據每一輪都會新增,并累積使用。
- SFT:采用學習率1e-5,訓練步數在8.5K到9K步之間,高質量數據重復訓練多次,低質量數據降采樣。
- RM & DPO:每輪重新訓練RM,使用所有Preference數據;DPO只使用最新批次的Preference數據,并過濾掉特定數據。
- 數據清洗:采用主題分類、質量評分、難度評分和語義去重等方法。
2. DeepSeek-V3: SFT-GRPO
DeepSeek-V3采用SFT和基于梯度獎勵優化的策略(Gradient Reward Policy Optimization,GRPO)兩階段后訓練。
- SFT:構建1.5M指令微調數據集,包含推理和非推理數據;利用專家模型生成數據,并進行拒絕采樣。
- RM:訓練基于規則和基于模型兩種RM;基于模型的RM使用偏好數據,并包含推理鏈。
- GRPO:簡化版的PPO,移除價值模型,依靠多次采樣的獎勵計算優勢函數。
- 其他:探索了DeepSeek-R1蒸餾、自我獎勵和多token預測。
3. TüLU 3: SFT-DPO-RLVR
TüLU 3采用SFT、DPO和可驗證獎勵強化學習(Reinforcement Learning with Verifiable Rewards,RLVR)三階段后訓練。
- SFT:使用多種開源數據,采用求和損失而非平均損失,學習率5e-6,訓練2個epoch。
- DPO:使用長度歸一化DPO,Preference數據來自SFT數據、WildChat和Persona IF等,包含新舊prompt和on/off-policy數據。
- RLVR:基于規則的RM進行強化學習,使用PPO算法,并用通用RM初始化價值模型,不直接使用RM分數。
4. Qwen2.5: SFT-DPO-GRPO
Qwen2.5采用SFT、DPO和GRPO三階段后訓練。
- SFT:構建1M規模數據集,使用32K序列長度,訓練2個epoch。
- DPO:使用基于規則的數據,數據量150,000對,學習率7e-7,訓練1個epoch。
- GRPO:使用多個模型采樣數據,并根據RM評估的獎勵分數方差調整prompt處理順序。
總而言之,這四個模型的后訓練方法各有特點,但都強調高質量數據的收集和利用,以及對不同強化學習算法和策略的探索。 這些方法的共同目標是提升模型的性能、安全性以及對指令的遵循性。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...