從Llama3.1到DeepSeek-V3，大模型Post-Training總結！

匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。

原標題：從Llama3.1到DeepSeek-V3，大模型Post-Training總結！
文章來源：智猩猩GenAI
內容字數：14490字

Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5后訓練技術總結

本文總結了Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5四個大型語言模型的后訓練(Post-Training)技術，重點關注其數據、策略和超參數選擇。

1. Llama 3.1: 迭代式后訓練

Llama 3.1采用迭代式后訓練，共進行6輪。每輪包含獎勵建模(Reward Modeling,RM)、拒絕采樣(Rejection Sampling)、監督微調(Supervised Fine-tuning,SFT)和直接偏好優化(Direct Preference Optimization,DPO)四個步驟。

數據：SFT數據由拒絕采樣結果、合成數據和少量人工標注數據構成；Preference數據每一輪都會新增，并累積使用。
SFT：采用學習率1e-5，訓練步數在8.5K到9K步之間，高質量數據重復訓練多次，低質量數據降采樣。
RM & DPO：每輪重新訓練RM，使用所有Preference數據；DPO只使用最新批次的Preference數據，并過濾掉特定數據。
數據清洗：采用主題分類、質量評分、難度評分和語義去重等方法。

2. DeepSeek-V3: SFT-GRPO

DeepSeek-V3采用SFT和基于梯度獎勵優化的策略(Gradient Reward Policy Optimization,GRPO)兩階段后訓練。

SFT：構建1.5M指令微調數據集，包含推理和非推理數據；利用專家模型生成數據，并進行拒絕采樣。
RM：訓練基于規則和基于模型兩種RM；基于模型的RM使用偏好數據，并包含推理鏈。
GRPO：簡化版的PPO，移除價值模型，依靠多次采樣的獎勵計算優勢函數。
其他：探索了DeepSeek-R1蒸餾、自我獎勵和多token預測。

3. TüLU 3: SFT-DPO-RLVR

TüLU 3采用SFT、DPO和可驗證獎勵強化學習(Reinforcement Learning with Verifiable Rewards,RLVR)三階段后訓練。

SFT：使用多種開源數據，采用求和損失而非平均損失，學習率5e-6，訓練2個epoch。
DPO：使用長度歸一化DPO，Preference數據來自SFT數據、WildChat和Persona IF等，包含新舊prompt和on/off-policy數據。
RLVR：基于規則的RM進行強化學習，使用PPO算法，并用通用RM初始化價值模型，不直接使用RM分數。

4. Qwen2.5: SFT-DPO-GRPO

Qwen2.5采用SFT、DPO和GRPO三階段后訓練。

SFT：構建1M規模數據集，使用32K序列長度，訓練2個epoch。
DPO：使用基于規則的數據，數據量150,000對，學習率7e-7，訓練1個epoch。
GRPO：使用多個模型采樣數據，并根據RM評估的獎勵分數方差調整prompt處理順序。

總而言之，這四個模型的后訓練方法各有特點，但都強調高質量數據的收集和利用，以及對不同強化學習算法和策略的探索。這些方法的共同目標是提升模型的性能、安全性以及對指令的遵循性。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態 # DeepSeek-V3優化 # Llama31微調 # 參數高效微調 # 大型模型后訓練 # 模型性能提升

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

從Llama3.1到DeepSeek-V3，大模型Post-Training總結！

匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。

Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5后訓練技術總結

1. Llama 3.1: 迭代式后訓練

2. DeepSeek-V3: SFT-GRPO

3. TüLU 3: SFT-DPO-RLVR

4. Qwen2.5: SFT-DPO-GRPO

聯系作者

前微軟亞研院視覺專家胡瀚加入騰訊，負責混元多模態大模型

2025，世界再無真相

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點