<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        以RLer視角看DeepSeek訓練中的強化學習

        AIGC動態3個月前發布 智猩猩GenAI
        387 0 0

        相信屬于RLer的時刻應該會到來的吧!

        以RLer視角看DeepSeek訓練中的強化學習

        原標題:以RLer視角看DeepSeek訓練中的強化學習
        文章來源:智猩猩GenAI
        內容字數:5933字

        智猩猩AI新青年講座:DeepSeek R1與推理模型專題

        本文總結了知乎文章《DeepScaleR:強化學習讓小模型推理超越o1-preview》,該文由南棲仙策算法副總裁趙鑒博士授權發布,探討了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程。

        1. 大模型訓練的問題定義

        文章指出,現有文獻很少明確定義大模型訓練的問題。作者嘗試從現有信息中提煉出問題定義:輸入為自監督+SFT訓練好的初始模型和人類偏好數據(Q,A1,A2),問題庫(Q);輸出為一個新模型。作者進一步簡化,將輸入替換為基于人類偏好數據訓練好的獎勵模型和問題庫(Q),輸出為一個模型。這與傳統強化學習問題定義有所不同,后者包含狀態轉移函數,而大模型訓練中狀態轉移函數不明確。

        2. 大模型中的問題建模

        文章探討了兩種大模型問題建模方式:第一種將狀態定義為問題Q,動作定義為生成回答中的下一個token,獎勵為最后一步的獎勵;第二種將狀態定義為問題Q,動作定義為回答A,獎勵為一步決策的獎勵。作者認為,第二種建模方式更常見,但并非嚴格的強化學習問題,因為它缺少序列決策過程。作者將此類方法類比于早期將強化學習應用于CV或NLP任務的做法,直接使用不可導的評價指標作為獎勵進行優化。

        3. DeepSeek訓練中使用的強化學習算法(GRPO)

        文章分析了DeepSeek訓練中使用的GRPO算法。作者認為GRPO可以理解為策略梯度算法Reinforce的改進版本,結合了PPO算法中對公式后半項的改進,但并非一個非常創新的算法。GRPO通過多次采樣,解決了傳統強化學習環境中單次采樣的限制,并由于大模型環境的確定性,避免了使用價值網絡和方差減小策略。

        4. 強化學習在大模型中的應用與展望

        文章最后探討了強化學習在大模型訓練中的應用現狀,指出目前只有少數RLer參與核心工作。作者建議,RLer應更多地從問題定義出發,例如將01稀疏獎勵問題建模為類似圍棋的模式,才能更好地發揮RL算法的優勢。同時,推理側可以結合MCTS等技術。文章以游戲AI為例,說明了高階RL算法工程師在實際應用中并非總是必需的。

        總而言之,文章深入淺出地分析了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程,并對強化學習算法工程師未來的發展方向提出了建議。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av色福利天堂| 免费人成网上在线观看| 中文字幕av无码不卡免费| 免费看大黄高清网站视频在线| 亚洲伊人久久大香线蕉啊| 亚欧色视频在线观看免费| 丁香花在线观看免费观看| 亚洲国产精品成人综合久久久| 5555在线播放免费播放| 亚洲精品视频在线观看视频| 久久精品无码专区免费东京热 | 91精品导航在线网址免费| 亚洲AV日韩AV永久无码绿巨人| 叮咚影视在线观看免费完整版 | 亚洲人成电影网站国产精品 | 亚洲人JIZZ日本人| 国产一区二区免费| 久久精品a亚洲国产v高清不卡| 一色屋成人免费精品网站| 亚洲AV综合色区无码一二三区| 亚洲AⅤ视频一区二区三区| 中文日本免费高清| 老司机亚洲精品影院| A在线观看免费网站大全| 亚洲av中文无码字幕色不卡| 亚洲精品第一国产综合精品99| 免费看无码特级毛片| 91午夜精品亚洲一区二区三区| 永久免费bbbbbb视频| a成人毛片免费观看| 亚洲国产成人超福利久久精品| 四虎免费永久在线播放| CAOPORN国产精品免费视频| 亚洲精品视频在线免费| 韩国欧洲一级毛片免费| WWW免费视频在线观看播放| 亚洲人精品亚洲人成在线| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 亚洲欧洲无码AV电影在线观看| 在线看片韩国免费人成视频| 久久精品国产亚洲AV天海翼|