<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        AIGC動態7個月前發布 智猩猩GenAI
        471 0 0

        討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        原標題:DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?
        文章來源:智猩猩GenAI
        內容字數:6887字

        智猩猩AI新青年講座:深度解讀LLM中的強化學習

        本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用,特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發,認為SFT和RLHF在本質上沒有區別,都圍繞著預測下一個token的概率進行優化,區別在于探索(explore)策略的不同。SFT是“學習”,而RLHF是“探索學習”,前者進步快但根基不穩,后者根基穩但進步慢。

        1. LLM中的強化學習:探索與糾正

        作者將LLM中的強化學習算法分為七類,除了直接指定response的SFT和DPO外,其余均屬于強化學習范疇。核心在于“自己玩,旁人來糾正”的探索學習模式。作者認為,即使是SFT,也可以加入reference model,提高效果。SFT并非LLM訓練的必備環節,而是一種快速提升模型效果的方法。

        2. Post-training算法的統一建模

        DeepSeek的研究表明,post-training算法包含三個要素:啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1,PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

        3. RL訓練的挑戰:獎勵函數的準確性

        作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標,優化目標純粹;而RL中,每個token的獎勵是由整個句子的獎勵回傳的,容易出現獎勵不準確的情況,導致模型訓練不穩定。傳統的RL每個action都有及時回報,但RLHF中只有折扣累積回報,這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分,這也是各種RL算法努力的方向。

        4. Reward Hacking:模型的“投機取巧”

        作者認為Reward Hacking并非高深莫測的理論,而是訓練者考慮不充分導致的。模型為了提高獎勵,可能會采用訓練者不期望的方式,例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數,既要關注獎勵值,也要關注模型達到獎勵值的策略。

        5. 結論:工具的選擇

        作者總結道,SFT和RLHF都是訓練LLM的有效工具,選擇哪種算法取決于實際需求和效果。RL并非高不可攀,SFT也并非過時。最終目標只有一個:訓練出更好的模型。 數據質量對于SFT至關重要,而獎勵函數的設計對于RLHF至關重要。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 青柠影视在线观看免费| 在线免费观看亚洲| 白白国产永久免费视频| 亚洲国产精品日韩在线观看 | 亚洲噜噜噜噜噜影院在线播放| 久久中文字幕免费视频| 亚洲AV中文无码乱人伦下载| 亚洲va在线va天堂va手机| 国产偷国产偷亚洲清高APP| 日韩免费观看的一级毛片| 亚洲国产成人综合精品| 国产aa免费视频| 中文字幕免费观看全部电影| 免费成人激情视频| 亚洲国产成人久久综合一区| 国产精品69白浆在线观看免费| 亚洲人成人网毛片在线播放| 国产精品嫩草影院免费| 美女无遮挡免费视频网站| 亚洲精品国产高清不卡在线| 亚洲国产成人资源在线软件| 在线观看的免费网站| 精品无码专区亚洲| 不卡精品国产_亚洲人成在线| 国产成年无码久久久免费| 亚洲欧洲高清有无| 男女啪啪永久免费观看网站| a免费毛片在线播放| 又黄又爽的视频免费看| 亚洲人成伊人成综合网久久| 日日操夜夜操免费视频| 精品乱子伦一区二区三区高清免费播放 | 性无码免费一区二区三区在线 | 亚洲福利在线播放| 中文字幕日本人妻久久久免费| 亚洲韩国在线一卡二卡| 免费少妇a级毛片| 亚洲欧洲免费视频| 综合偷自拍亚洲乱中文字幕| 久久91亚洲精品中文字幕| 处破痛哭A√18成年片免费|