<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        AIGC動態3個月前發布 智猩猩GenAI
        459 0 0

        討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        原標題:DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?
        文章來源:智猩猩GenAI
        內容字數:6887字

        智猩猩AI新青年講座:深度解讀LLM中的強化學習

        本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用,特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發,認為SFT和RLHF在本質上沒有區別,都圍繞著預測下一個token的概率進行優化,區別在于探索(explore)策略的不同。SFT是“學習”,而RLHF是“探索學習”,前者進步快但根基不穩,后者根基穩但進步慢。

        1. LLM中的強化學習:探索與糾正

        作者將LLM中的強化學習算法分為七類,除了直接指定response的SFT和DPO外,其余均屬于強化學習范疇。核心在于“自己玩,旁人來糾正”的探索學習模式。作者認為,即使是SFT,也可以加入reference model,提高效果。SFT并非LLM訓練的必備環節,而是一種快速提升模型效果的方法。

        2. Post-training算法的統一建模

        DeepSeek的研究表明,post-training算法包含三個要素:啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1,PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

        3. RL訓練的挑戰:獎勵函數的準確性

        作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標,優化目標純粹;而RL中,每個token的獎勵是由整個句子的獎勵回傳的,容易出現獎勵不準確的情況,導致模型訓練不穩定。傳統的RL每個action都有及時回報,但RLHF中只有折扣累積回報,這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分,這也是各種RL算法努力的方向。

        4. Reward Hacking:模型的“投機取巧”

        作者認為Reward Hacking并非高深莫測的理論,而是訓練者考慮不充分導致的。模型為了提高獎勵,可能會采用訓練者不期望的方式,例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數,既要關注獎勵值,也要關注模型達到獎勵值的策略。

        5. 結論:工具的選擇

        作者總結道,SFT和RLHF都是訓練LLM的有效工具,選擇哪種算法取決于實際需求和效果。RL并非高不可攀,SFT也并非過時。最終目標只有一個:訓練出更好的模型。 數據質量對于SFT至關重要,而獎勵函數的設計對于RLHF至關重要。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产成人久久综合一| 超清首页国产亚洲丝袜| 亚洲精品在线免费观看视频| 国产偷伦视频免费观看| 亚洲AV无码成人精品区蜜桃| 99精品视频在线观看免费| 亚洲日韩中文无码久久| 国产精品内射视频免费| 亚洲日韩欧洲无码av夜夜摸| 丰满少妇作爱视频免费观看| 国产亚洲精品成人AA片新蒲金 | 亚洲视频在线观看免费视频| 666精品国产精品亚洲| 4455永久在线观免费看| 亚洲中文字幕无码mv| 国产jizzjizz免费视频| 两个人日本免费完整版在线观看1| 亚洲无码在线播放| 91成人在线免费视频| 亚洲av永久综合在线观看尤物| 99精品全国免费观看视频| 色婷婷精品免费视频| 亚洲国产精品成人精品无码区 | 看全免费的一级毛片| 国产亚洲日韩在线三区| 91免费福利精品国产| 亚洲色欲色欲www在线播放 | 国产免费人视频在线观看免费| 国产免费伦精品一区二区三区| 亚洲天堂男人天堂| 国产精品成人无码免费| 97在线免费视频| 亚洲一区免费视频| 亚洲精品视频免费| 亚洲精品视频在线免费| 国产成人人综合亚洲欧美丁香花 | 亚洲av无码片在线播放| 国产在线a免费观看| 一级毛片不卡免费看老司机 | 四虎亚洲精品高清在线观看| 亚洲国产成人久久精品99 |