<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        復現DeepSeek Zero的RL調參經驗

        AIGC動態3個月前發布 智猩猩GenAI
        302 0 0

        關于zero-rl的碎碎念和想法

        復現DeepSeek Zero的RL調參經驗

        原標題:復現DeepSeek Zero的RL調參經驗
        文章來源:智猩猩GenAI
        內容字數:7366字

        智猩猩DeepSeek大解讀:基于Base模型的強化學習

        本文總結了haotian在知乎發表的文章,探討了基于Base模型的強化學習(RL)方法,相較于傳統的cold-start-SFT->RL流程,作者更推崇直接在Base模型上進行RL。

        1. 基于Base模型的RL的理論優勢

        1.1 作者將PPO算法解釋為貝葉斯推理,并推導出殘差能量模型的形式。這使得問題轉化為如何高效地從最優分布中采樣。方法包括:使用帶參數的策略逼近最優分布(方法1,即傳統的RL方法及其變種);使用高效的MCMC采樣方法從最優分布中采樣(方法2)。方法1除了傳統的RL方法,還可以使用其他能量模型的參數估計方法。

        1.2 過去基于SFT模型的RL效果不佳的原因在于Base模型的質量和RL搜索空間巨大,導致優化復雜度高。但隨著預訓練模型的改進(例如加入更多推理數據),在Base模型上進行zero-RL變得更可行且有效。

        2. 基于Base模型的RL的實踐挑戰

        2.1 LLM的RL與傳統RL不同,LLM產生響應并獲得獎勵的過程缺乏與環境的多步交互,更像是一個bandit問題。并且,LLM本身經過預訓練和微調,并非純粹的預訓練模型。

        2.2 傳統RL的技巧在LLM上適用性存疑。許多傳統RL技巧是在隨機初始化模型上使用的,LLM的預訓練特性使得這些技巧的必要性降低。

        2.3 除了RL,其他生成模型的優化方法和MCMC采樣也可能適用于LLM,同樣需要評估傳統技巧的適用性和必要性。

        3. 基于Base模型的RL的實際指導意義

        3.1 直接在Base模型上進行RL,相當于用帶參數的分布擬合最優分布。這為Base模型的優化提供了新方向:分析最優分布采樣樣本的模式和效果,修正Base模型的數據分布,提升數據分布覆蓋率,糾正模型的頑固特性。

        3.2 基于Base模型RL得到的答案更貼合Base模型的分布特征,因此基于此數據集進行SFT,應該能得到更好的Instruction模型。

        4. zero-RL的復現關鍵點

        4.1 訓練穩定性:需要穩定訓練上千個步驟,而非僅僅幾個步驟。

        4.2 獎勵和響應長度的同步增長:如果響應長度不增長,則會退化為傳統的短文本Instruction模型的RL,效果有限。

        4.3 rule-verified的獎勵模型:使用rule-verified的PPO驗證至關重要。如果無法實現持續增長,則使用更復雜的獎勵模型(例如BT-RM)的優化將更加困難。

        4.4 與現有模型的對比:在32B模型上達到與DeepSeek-R1技術報告中Qwen-25-32b-zero相當的效果,是一個可比的基線。

        5. 實驗結果與結論

        5.1 在7B-32B模型上的實驗表明,不同的RL算法差異不顯著,超參數調整(例如學習率、預熱步數)影響有限。

        5.2 KL約束會限制模型的探索,在Base模型上的RL,早期探索更為重要。移除KL約束后,模型表現更好,reward和response長度同步增長。

        5.3 Prompt模板對結果影響較大,不合適的模板可能訓練出類似Instruction風格的模型。

        5.4 最樸素的方法(例如Reinforce)可能最有效。

        6. 未來展望

        6.1 結合環境交互的RL框架是一個重要的方向,但需要構建合適的環境。

        6.2 其他生成模型的優化/采樣方法(例如EBM)也值得探索。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 91精品视频在线免费观看| 亚洲熟女综合色一区二区三区 | 免费大黄网站在线观| 亚洲偷自拍另类图片二区| 麻豆国产VA免费精品高清在线 | 国产卡二卡三卡四卡免费网址| 亚洲午夜电影在线观看高清| 四虎免费影院ww4164h| 久久ww精品w免费人成| 亚洲综合视频在线| 国产妇乱子伦视频免费| 亚洲一区二区三区在线| 一区二区三区精品高清视频免费在线播放| 免费黄色网址入口| 日日躁狠狠躁狠狠爱免费视频 | 免费国产高清视频| 一级人做人a爰免费视频| 国产精品成人观看视频免费| 亚洲av成人一区二区三区| 毛片免费全部播放一级| 国内成人精品亚洲日本语音| 黄色成人免费网站| 亚洲狠狠色丁香婷婷综合| 亚洲AⅤ无码一区二区三区在线| 亚洲色图视频在线观看| 好吊妞788免费视频播放| 美女被爆羞羞网站免费| 亚洲人精品午夜射精日韩| 黄床大片30分钟免费看| 亚洲日韩aⅴ在线视频| 免费v片在线观看视频网站| 亚洲日韩一区二区三区| 18未年禁止免费观看| 亚洲精品二区国产综合野狼| 99re6在线视频精品免费下载| 亚洲国产成人精品无码区在线观看 | 久久精品国产精品亚洲艾| 9i9精品国产免费久久| 亚洲欧洲日产韩国在线| 四虎永久在线精品免费影视| 中文在线日本免费永久18近|