<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        復現DeepSeek Zero的RL調參經驗

        AIGC動態5個月前發布 智猩猩GenAI
        311 0 0

        關于zero-rl的碎碎念和想法

        復現DeepSeek Zero的RL調參經驗

        原標題:復現DeepSeek Zero的RL調參經驗
        文章來源:智猩猩GenAI
        內容字數:7366字

        智猩猩DeepSeek大解讀:基于Base模型的強化學習

        本文總結了haotian在知乎發表的文章,探討了基于Base模型的強化學習(RL)方法,相較于傳統的cold-start-SFT->RL流程,作者更推崇直接在Base模型上進行RL。

        1. 基于Base模型的RL的理論優勢

        1.1 作者將PPO算法解釋為貝葉斯推理,并推導出殘差能量模型的形式。這使得問題轉化為如何高效地從最優分布中采樣。方法包括:使用帶參數的策略逼近最優分布(方法1,即傳統的RL方法及其變種);使用高效的MCMC采樣方法從最優分布中采樣(方法2)。方法1除了傳統的RL方法,還可以使用其他能量模型的參數估計方法。

        1.2 過去基于SFT模型的RL效果不佳的原因在于Base模型的質量和RL搜索空間巨大,導致優化復雜度高。但隨著預訓練模型的改進(例如加入更多推理數據),在Base模型上進行zero-RL變得更可行且有效。

        2. 基于Base模型的RL的實踐挑戰

        2.1 LLM的RL與傳統RL不同,LLM產生響應并獲得獎勵的過程缺乏與環境的多步交互,更像是一個bandit問題。并且,LLM本身經過預訓練和微調,并非純粹的預訓練模型。

        2.2 傳統RL的技巧在LLM上適用性存疑。許多傳統RL技巧是在隨機初始化模型上使用的,LLM的預訓練特性使得這些技巧的必要性降低。

        2.3 除了RL,其他生成模型的優化方法和MCMC采樣也可能適用于LLM,同樣需要評估傳統技巧的適用性和必要性。

        3. 基于Base模型的RL的實際指導意義

        3.1 直接在Base模型上進行RL,相當于用帶參數的分布擬合最優分布。這為Base模型的優化提供了新方向:分析最優分布采樣樣本的模式和效果,修正Base模型的數據分布,提升數據分布覆蓋率,糾正模型的頑固特性。

        3.2 基于Base模型RL得到的答案更貼合Base模型的分布特征,因此基于此數據集進行SFT,應該能得到更好的Instruction模型。

        4. zero-RL的復現關鍵點

        4.1 訓練穩定性:需要穩定訓練上千個步驟,而非僅僅幾個步驟。

        4.2 獎勵和響應長度的同步增長:如果響應長度不增長,則會退化為傳統的短文本Instruction模型的RL,效果有限。

        4.3 rule-verified的獎勵模型:使用rule-verified的PPO驗證至關重要。如果無法實現持續增長,則使用更復雜的獎勵模型(例如BT-RM)的優化將更加困難。

        4.4 與現有模型的對比:在32B模型上達到與DeepSeek-R1技術報告中Qwen-25-32b-zero相當的效果,是一個可比的基線。

        5. 實驗結果與結論

        5.1 在7B-32B模型上的實驗表明,不同的RL算法差異不顯著,超參數調整(例如學習率、預熱步數)影響有限。

        5.2 KL約束會限制模型的探索,在Base模型上的RL,早期探索更為重要。移除KL約束后,模型表現更好,reward和response長度同步增長。

        5.3 Prompt模板對結果影響較大,不合適的模板可能訓練出類似Instruction風格的模型。

        5.4 最樸素的方法(例如Reinforce)可能最有效。

        6. 未來展望

        6.1 結合環境交互的RL框架是一個重要的方向,但需要構建合適的環境。

        6.2 其他生成模型的優化/采樣方法(例如EBM)也值得探索。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲乱码国产一区网址| 成人片黄网站A毛片免费| 亚洲国产人成精品| 精品久久久久久亚洲综合网| 无码国产精品一区二区免费I6| 亚洲成AV人片天堂网无码| 一本到卡二卡三卡免费高| 国产午夜精品免费一区二区三区| 亚洲五月综合缴情在线观看| 国产无遮挡又黄又爽免费网站| 亚洲αv久久久噜噜噜噜噜| 午夜网站在线观看免费完整高清观看 | 亚洲国产天堂在线观看| 中文字幕免费高清视频| 亚洲国产电影av在线网址| 亚洲日本视频在线观看| 国产麻豆视频免费观看| 亚洲伊人久久大香线蕉AV| 亚洲AV伊人久久青青草原| 久久久久久国产a免费观看不卡| 在线观看人成网站深夜免费| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲黄黄黄网站在线观看| 久久国产精品萌白酱免费| 亚洲国产成人在线视频| 日产乱码一卡二卡三免费| 亚洲剧场午夜在线观看| 免费无码又爽又高潮视频| 亚美影视免费在线观看| 亚洲狠狠爱综合影院婷婷| 无码中文字幕av免费放dvd| 亚洲午夜理论片在线观看| 久久精品国产亚洲5555| 无码av免费网站| 国产精品高清视亚洲一区二区| 亚洲成a人一区二区三区 | 中文字幕在线免费| 亚洲老熟女五十路老熟女bbw| 亚洲一区二区三区免费视频| 亚洲欧美不卡高清在线| 亚洲精品~无码抽插|