<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從Llama3.1到DeepSeek-V3,大模型Post-Training總結!

        AIGC動態4個月前發布 智猩猩GenAI
        404 0 0

        匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。

        從Llama3.1到DeepSeek-V3,大模型Post-Training總結!

        原標題:從Llama3.1到DeepSeek-V3,大模型Post-Training總結!
        文章來源:智猩猩GenAI
        內容字數:14490字

        Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5后訓練技術總結

        本文總結了Llama 3.1、DeepSeek-V3、TüLU 3和Qwen2.5四個大型語言模型的后訓練(Post-Training)技術,重點關注其數據、策略和超參數選擇。

        1. Llama 3.1: 迭代式后訓練

        Llama 3.1采用迭代式后訓練,共進行6輪。每輪包含獎勵建模(Reward Modeling,RM)、拒絕采樣(Rejection Sampling)、監督微調(Supervised Fine-tuning,SFT)和直接偏好優化(Direct Preference Optimization,DPO)四個步驟。

        1. 數據:SFT數據由拒絕采樣結果、合成數據和少量人工標注數據構成;Preference數據每一輪都會新增,并累積使用。
        2. SFT:采用學習率1e-5,訓練步數在8.5K到9K步之間,高質量數據重復訓練多次,低質量數據降采樣。
        3. RM & DPO:每輪重新訓練RM,使用所有Preference數據;DPO只使用最新批次的Preference數據,并過濾掉特定數據。
        4. 數據清洗:采用主題分類、質量評分、難度評分和語義去重等方法。

        2. DeepSeek-V3: SFT-GRPO

        DeepSeek-V3采用SFT和基于梯度獎勵優化的策略(Gradient Reward Policy Optimization,GRPO)兩階段后訓練。

        1. SFT:構建1.5M指令微調數據集,包含推理和非推理數據;利用專家模型生成數據,并進行拒絕采樣。
        2. RM:訓練基于規則和基于模型兩種RM;基于模型的RM使用偏好數據,并包含推理鏈。
        3. GRPO:簡化版的PPO,移除價值模型,依靠多次采樣的獎勵計算優勢函數。
        4. 其他:探索了DeepSeek-R1蒸餾、自我獎勵和多token預測。

        3. TüLU 3: SFT-DPO-RLVR

        TüLU 3采用SFT、DPO和可驗證獎勵強化學習(Reinforcement Learning with Verifiable Rewards,RLVR)三階段后訓練。

        1. SFT:使用多種開源數據,采用求和損失而非平均損失,學習率5e-6,訓練2個epoch。
        2. DPO:使用長度歸一化DPO,Preference數據來自SFT數據、WildChat和Persona IF等,包含新舊prompt和on/off-policy數據。
        3. RLVR:基于規則的RM進行強化學習,使用PPO算法,并用通用RM初始化價值模型,不直接使用RM分數。

        4. Qwen2.5: SFT-DPO-GRPO

        Qwen2.5采用SFT、DPO和GRPO三階段后訓練。

        1. SFT:構建1M規模數據集,使用32K序列長度,訓練2個epoch。
        2. DPO:使用基于規則的數據,數據量150,000對,學習率7e-7,訓練1個epoch。
        3. GRPO:使用多個模型采樣數據,并根據RM評估的獎勵分數方差調整prompt處理順序。

        總而言之,這四個模型的后訓練方法各有特點,但都強調高質量數據的收集和利用,以及對不同強化學習算法和策略的探索。 這些方法的共同目標是提升模型的性能、安全性以及對指令的遵循性。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 无码国产精品一区二区免费I6| 777亚洲精品乱码久久久久久| 91av在线免费视频| 亚洲AV综合色区无码一区| 午夜亚洲福利在线老司机| 亚洲最大福利视频| 亚洲日本在线电影| 亚洲AV无码一区二区三区电影| 亚洲理论精品午夜电影| 久久久久亚洲av无码专区| 久久亚洲精品人成综合网| 亚洲综合亚洲国产尤物| 亚洲日本在线观看网址| 亚洲人成网站色在线观看| 亚洲人成网站色在线入口| 国产日产亚洲系列最新| 国产成人亚洲精品青草天美| 69av免费观看| 国产成人涩涩涩视频在线观看免费| 国产免费无遮挡精品视频| 亚洲视频在线一区二区| 亚洲乱码中文字幕久久孕妇黑人| 亚洲av最新在线网址| 亚洲人成电影在线观看网| 亚洲AV永久无码天堂影院 | 三根一起会坏掉的好痛免费三级全黄的视频在线观看 | 亚洲天堂一区二区三区| 欧洲亚洲国产精华液| 在线视频免费观看爽爽爽| 亚洲色图综合在线| 亚洲中文字幕一二三四区| 国产猛男猛女超爽免费视频| 成人片黄网站A毛片免费| 乱淫片免费影院观看| 日韩欧美亚洲中文乱码| 88av免费观看入口在线| 亚洲熟妇丰满多毛XXXX| 美景之屋4在线未删减免费| 国产青草亚洲香蕉精品久久| yellow免费网站| 久久精品国产亚洲AV不卡|