<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        以RLer視角看DeepSeek訓練中的強化學習

        AIGC動態7個月前發布 智猩猩GenAI
        399 0 0

        相信屬于RLer的時刻應該會到來的吧!

        以RLer視角看DeepSeek訓練中的強化學習

        原標題:以RLer視角看DeepSeek訓練中的強化學習
        文章來源:智猩猩GenAI
        內容字數:5933字

        智猩猩AI新青年講座:DeepSeek R1與推理模型專題

        本文總結了知乎文章《DeepScaleR:強化學習讓小模型推理超越o1-preview》,該文由南棲仙策算法副總裁趙鑒博士授權發布,探討了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程。

        1. 大模型訓練的問題定義

        文章指出,現有文獻很少明確定義大模型訓練的問題。作者嘗試從現有信息中提煉出問題定義:輸入為自監督+SFT訓練好的初始模型和人類偏好數據(Q,A1,A2),問題庫(Q);輸出為一個新模型。作者進一步簡化,將輸入替換為基于人類偏好數據訓練好的獎勵模型和問題庫(Q),輸出為一個模型。這與傳統強化學習問題定義有所不同,后者包含狀態轉移函數,而大模型訓練中狀態轉移函數不明確。

        2. 大模型中的問題建模

        文章探討了兩種大模型問題建模方式:第一種將狀態定義為問題Q,動作定義為生成回答中的下一個token,獎勵為最后一步的獎勵;第二種將狀態定義為問題Q,動作定義為回答A,獎勵為一步決策的獎勵。作者認為,第二種建模方式更常見,但并非嚴格的強化學習問題,因為它缺少序列決策過程。作者將此類方法類比于早期將強化學習應用于CV或NLP任務的做法,直接使用不可導的評價指標作為獎勵進行優化。

        3. DeepSeek訓練中使用的強化學習算法(GRPO)

        文章分析了DeepSeek訓練中使用的GRPO算法。作者認為GRPO可以理解為策略梯度算法Reinforce的改進版本,結合了PPO算法中對公式后半項的改進,但并非一個非常創新的算法。GRPO通過多次采樣,解決了傳統強化學習環境中單次采樣的限制,并由于大模型環境的確定性,避免了使用價值網絡和方差減小策略。

        4. 強化學習在大模型中的應用與展望

        文章最后探討了強化學習在大模型訓練中的應用現狀,指出目前只有少數RLer參與核心工作。作者建議,RLer應更多地從問題定義出發,例如將01稀疏獎勵問題建模為類似圍棋的模式,才能更好地發揮RL算法的優勢。同時,推理側可以結合MCTS等技術。文章以游戲AI為例,說明了高階RL算法工程師在實際應用中并非總是必需的。

        總而言之,文章深入淺出地分析了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程,并對強化學習算法工程師未來的發展方向提出了建議。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av无码一区二区三区天堂古代 | 亚洲喷奶水中文字幕电影| a级在线免费观看| 久久亚洲高清综合| 国产免费一级高清淫曰本片| 亚洲av区一区二区三| 全黄A免费一级毛片| 免费人成网站在线播放| 日韩大片免费观看视频播放 | 国产高清视频免费在线观看| 亚洲精品国产成人影院| 春意影院午夜爽爽爽免费| 国产L精品国产亚洲区久久| aa毛片免费全部播放完整| 亚洲中文字幕在线第六区| 在线涩涩免费观看国产精品 | 特级淫片国产免费高清视频| 久久水蜜桃亚洲AV无码精品| 人人狠狠综合久久亚洲高清| 野花视频在线官网免费1| 国产福利电影一区二区三区,亚洲国模精品一区 | 国产成人无码免费视频97| 添bbb免费观看高清视频| 亚洲中文字幕视频国产| 国产免费AV片在线观看| 亚洲永久中文字幕在线| 成人免费a级毛片| 免费亚洲视频在线观看| 亚洲日韩精品无码一区二区三区| 午夜免费福利小电影| 亚洲国产日韩视频观看| 亚洲高清无码专区视频| 久久久久国产精品免费网站| 亚洲中文字幕乱码熟女在线| 亚洲精品97久久中文字幕无码| 国产成人久久AV免费| 亚洲乱妇熟女爽到高潮的片| 亚洲日韩精品射精日| 免费黄网在线观看| 免费人成在线观看视频高潮| 亚洲视频一区二区三区四区|