<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從Llama3.1到DeepSeek-V3,大模型Post-Training總結!

        AIGC動態8個月前發布 智猩猩GenAI
        458 0 0

        匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。

        從Llama3.1到DeepSeek-V3,大模型Post-Training總結!

        原標題:從Llama3.1到DeepSeek-V3,大模型Post-Training總結!
        文章來源:智猩猩GenAI
        內容字數:14490字

        Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5后訓練技術總結

        本文總結了Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5四個大型語言模型的后訓練(Post-Training)技術,重點關注其數據、策略和超參數選擇。

        1. Llama 3.1: 迭代式后訓練

        Llama 3.1采用迭代式后訓練,共進行6輪。每輪包含獎勵建模(Reward Modeling,RM)、拒絕采樣(Rejection Sampling)、監督微調(Supervised Fine-tuning,SFT)和直接偏好優化(Direct Preference Optimization,DPO)四個步驟。

        1. 數據:SFT數據由拒絕采樣結果、合成數據和少量人工標注數據構成;Preference數據每一輪都會新增,并累積使用。
        2. SFT:采用學習率1e-5,訓練步數在8.5K到9K步之間,高質量數據重復訓練多次,低質量數據降采樣。
        3. RM & DPO:每輪重新訓練RM,使用所有Preference數據;DPO只使用最新批次的Preference數據,并過濾掉特定數據。
        4. 數據清洗:采用主題分類、質量評分、難度評分和語義去重等方法。

        2. DeepSeek-V3: SFT-GRPO

        DeepSeek-V3采用SFT和基于梯度獎勵優化的策略(Gradient Reward Policy Optimization,GRPO)兩階段后訓練。

        1. SFT:構建1.5M指令微調數據集,包含推理和非推理數據;利用專家模型生成數據,并進行拒絕采樣。
        2. RM:訓練基于規則和基于模型兩種RM;基于模型的RM使用偏好數據,并包含推理鏈。
        3. GRPO:簡化版的PPO,移除價值模型,依靠多次采樣的獎勵計算優勢函數。
        4. 其他:探索了DeepSeek-R1蒸餾、自我獎勵和多token預測。

        3. TüLU 3: SFT-DPO-RLVR

        TüLU 3采用SFT、DPO和可驗證獎勵強化學習(Reinforcement Learning with Verifiable Rewards,RLVR)三階段后訓練。

        1. SFT:使用多種開源數據,采用求和損失而非平均損失,學習率5e-6,訓練2個epoch。
        2. DPO:使用長度歸一化DPO,Preference數據來自SFT數據、WildChat和Persona IF等,包含新舊prompt和on/off-policy數據。
        3. RLVR:基于規則的RM進行強化學習,使用PPO算法,并用通用RM初始化價值模型,不直接使用RM分數。

        4. Qwen2.5: SFT-DPO-GRPO

        Qwen2.5采用SFT、DPO和GRPO三階段后訓練。

        1. SFT:構建1M規模數據集,使用32K序列長度,訓練2個epoch。
        2. DPO:使用基于規則的數據,數據量150,000對,學習率7e-7,訓練1個epoch。
        3. GRPO:使用多個模型采樣數據,并根據RM評估的獎勵分數方差調整prompt處理順序。

        總而言之,這四個模型的后訓練方法各有特點,但都強調高質量數據的收集和利用,以及對不同強化學習算法和策略的探索。 這些方法的共同目標是提升模型的性能、安全性以及對指令的遵循性。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 4399好看日本在线电影免费| 免费不卡在线观看AV| 在线免费观看色片| 亚洲精品第一国产综合野| 国产精品成人免费综合| 国产免费拔擦拔擦8x| 亚洲国产精品久久久久秋霞小 | 成人片黄网站A毛片免费| 67194在线午夜亚洲| 色妞WWW精品免费视频| 亚洲精品无码久久久久YW| 爽爽日本在线视频免费| 国产精品亚洲一区二区无码| 国产免费久久精品| 精品乱子伦一区二区三区高清免费播放| 久久精品国产精品亚洲人人 | 亚洲日韩国产AV无码无码精品| 在线观看视频免费国语| 在线观看亚洲视频| 久久国产成人亚洲精品影院 | 亚洲精品成人久久| 成人性生免费视频| 日本特黄特色AAA大片免费| 91高清免费国产自产拍2021| 亚洲精品在线免费观看| 嫩草影院在线免费观看| 日韩精品无码免费视频| 亚洲AV无码一区二区三区DV| 动漫黄网站免费永久在线观看| 精品韩国亚洲av无码不卡区| 在线观看亚洲精品福利片| 看一级毛片免费观看视频| 在线亚洲精品福利网址导航| 免费播放一区二区三区| 小说专区亚洲春色校园| 国产亚洲3p无码一区二区| 欧美三级在线电影免费| 一进一出60分钟免费视频| 亚洲第一页在线观看| 哒哒哒免费视频观看在线www| 你懂的免费在线观看网站|