<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        AIGC動態3個月前發布 智猩猩GenAI
        520 0 0

        討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        原標題:DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?
        文章來源:智猩猩GenAI
        內容字數:6887字

        智猩猩AI新青年講座:深度解讀LLM中的強化學習

        本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用,特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發,認為SFT和RLHF在本質上沒有區別,都圍繞著預測下一個token的概率進行優化,區別在于探索(explore)策略的不同。SFT是“學習”,而RLHF是“探索學習”,前者進步快但根基不穩,后者根基穩但進步慢。

        1. LLM中的強化學習:探索與糾正

        作者將LLM中的強化學習算法分為七類,除了直接指定response的SFT和DPO外,其余均屬于強化學習范疇。核心在于“自己玩,旁人來糾正”的探索學習模式。作者認為,即使是SFT,也可以加入reference model,提高效果。SFT并非LLM訓練的必備環節,而是一種快速提升模型效果的方法。

        2. Post-training算法的統一建模

        DeepSeek的研究表明,post-training算法包含三個要素:啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1,PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

        3. RL訓練的挑戰:獎勵函數的準確性

        作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標,優化目標純粹;而RL中,每個token的獎勵是由整個句子的獎勵回傳的,容易出現獎勵不準確的情況,導致模型訓練不穩定。傳統的RL每個action都有及時回報,但RLHF中只有折扣累積回報,這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分,這也是各種RL算法努力的方向。

        4. Reward Hacking:模型的“投機取巧”

        作者認為Reward Hacking并非高深莫測的理論,而是訓練者考慮不充分導致的。模型為了提高獎勵,可能會采用訓練者不期望的方式,例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數,既要關注獎勵值,也要關注模型達到獎勵值的策略。

        5. 結論:工具的選擇

        作者總結道,SFT和RLHF都是訓練LLM的有效工具,選擇哪種算法取決于實際需求和效果。RL并非高不可攀,SFT也并非過時。最終目標只有一個:訓練出更好的模型。 數據質量對于SFT至關重要,而獎勵函數的設計對于RLHF至關重要。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一级毛片aaaaaa视频免费看| 国产产在线精品亚洲AAVV| 女人毛片a级大学毛片免费| www在线观看播放免费视频日本| 精品亚洲成a人片在线观看| 免费一级毛片在线观看 | 精品国产污污免费网站aⅴ| 亚洲av无码成人影院一区| 亚洲乱码在线播放| 色婷婷六月亚洲婷婷丁香| 亚洲日韩一页精品发布| 免费在线黄色网址| 国产亚洲一区二区三区在线观看 | 亚洲黄网在线观看| 亚洲资源在线观看| 亚洲高清在线mv| 亚洲男人的天堂久久精品| 久久精品九九亚洲精品| 亚洲国产精品自在线一区二区 | 色播在线永久免费视频| 国产精品酒店视频免费看| 四虎影视永久免费观看| 亚洲成AV人在线观看网址| 免费国产真实迷j在线观看| 免费女人18毛片a级毛片视频| 免费乱码中文字幕网站| 亚洲欧洲无码AV电影在线观看| 久久精品国产精品亚洲艾| 性xxxx黑人与亚洲| 免费精品国产自产拍在线观看| 在线涩涩免费观看国产精品 | 美女被免费视频网站| 免费观看在线禁片| 成人无遮挡裸免费视频在线观看 | 亚洲国产成人爱av在线播放| 亚洲人成电影在在线观看网色| 亚洲综合av一区二区三区| 韩国免费A级毛片久久| 免费做爰猛烈吃奶摸视频在线观看| 国产又大又粗又硬又长免费| 亚洲午夜久久影院|