<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        AIGC動態3個月前發布 智猩猩GenAI
        340 0 0

        本文對幾個主流的開源模型系列采用的RL策略進行探討和總結。

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        原標題:從DeepSeek到LLaMA,主流開源LLM的RL策略深討
        文章來源:智猩猩GenAI
        內容字數:5597字

        開源LLM模型的RLHF策略對比

        本文總結了DeepSeek、Qwen和LLaMA等主流開源大模型在強化學習自適應微調(RLHF)階段的不同策略和實現方法。RLHF是提升LLM與人類偏好一致性的關鍵環節,這些模型在策略選擇和工程實現上各有特點。

        1. 算法選擇:GRPO/PPO與DPO之爭

        1. 在強化學習算法選擇上,目前GRPO、PPO和DPO三者之間沒有絕對的優劣之分。DeepSeek系列偏向于使用GRPO,Qwen系列則結合了DPO和PPO(或GRPO),而LLaMA系列則更傾向于使用DPO。

        2. DeepSeek早期使用DPO,后轉向PPO,最終采用GRPO。GRPO通過估計基線值來優化策略模型,省去了critic model。DeepSeek-V3還引入了self-rewarding策略,讓模型能夠自我改進。

        3. Qwen系列從PPO過渡到DPO,并結合離線和在線訓練階段。Qwen2.5-Coder僅使用離線DPO,結合代碼沙箱和LLM-as-judge方法評估代碼質量。

        4. LLaMA系列采用迭代式策略,結合Rejection Sampling和PPO(或DPO)進行優化,通過多次采樣和選擇逐步提升模型性能。LLaMA-3系列則改用DPO,并對Reward Model的訓練方法進行了調整。

        2. 獎勵模型(RM)的重要性

        1. 無論采用哪種強化學習算法,獎勵模型(RM)都是至關重要的。即使使用DPO,也需要RM進行Rejection Sampling來選擇高質量的訓練樣本。

        2. 各個模型在每次更新中都對RM的優化進行了改進,包括rule-based RM和model-based RM的并重,以及利用思維鏈(CoT)數據來增強RM的可靠性。

        3. RL階段的必要性

        1. 簡單的監督微調(SFT)已經不足以滿足對LLM能力的要求,尤其是在代碼生成和數學推理等強推理場景下。

        2. RL階段的訓練能夠顯著提升模型的性能,例如在DeepSeek-V2中,RL階段的訓練顯著提升了模型在數學和代碼任務上的表現。

        3. 然而,RL訓練也可能帶來“對齊稅”,即模型在某些標準基準測試上的性能下降,這需要在模型性能和人類偏好對齊之間進行權衡。

        4. 各模型RLHF策略總結

        1. **DeepSeek:** 從DPO到PPO,最終采用GRPO,并結合rule-based和model-based RM,以及self-rewarding策略。

        2. **Qwen:** 從PPO到DPO,結合離線和在線訓練階段,Qwen2.5-Coder則只使用離線DPO。

        3. **LLaMA:** 采用迭代式策略,結合Rejection Sampling和PPO/DPO,逐步提升模型性能。

        總而言之,開源LLM模型在RLHF策略上不斷探索和改進,未來可能會有更多高效且有效的策略出現,以提升LLM的性能和與人類偏好的一致性。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费人成网站在线观看不卡| 亚洲欧美黑人猛交群| 99久久99这里只有免费的精品| 亚洲欧洲精品成人久久曰影片| 免费观看四虎精品成人| 亚洲片一区二区三区| 精品国产免费一区二区三区| 亚洲人成色77777| 免费毛片a线观看| 久久精品亚洲精品国产色婷 | 久久精品国产亚洲AV忘忧草18| 亚洲免费人成视频观看| 色老板亚洲视频免在线观| 午夜精品在线免费观看| 无码一区二区三区亚洲人妻| 亚洲欧洲日产国码高潮αv| 久久精品免费电影| 亚洲经典在线观看| 青青草国产免费久久久91| 一区二区在线视频免费观看| 久久精品国产精品亚洲精品| 亚洲免费网站在线观看| 亚洲一久久久久久久久| 亚洲国产午夜中文字幕精品黄网站| 精品免费久久久久国产一区| 亚洲a在线视频视频| 成人免费a级毛片| 国产精品美女久久久免费 | 国产AⅤ无码专区亚洲AV| 日韩视频在线观看免费| jiz zz在亚洲| 亚洲午夜爱爱香蕉片| 精品国产免费人成电影在线观看| 亚洲熟女乱色一区二区三区| 亚洲第一成人影院| 久久久久免费看成人影片| 亚洲日韩精品国产3区| 久久亚洲免费视频| 日韩一级在线播放免费观看| a视频在线观看免费| 亚洲熟妇久久精品|