<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從PPO到GRPO,DeepSeek-R1做對了什么?

        AIGC動態3個月前發布 機器之心
        406 0 0

        本期通訊22569字,可免費試讀至6%。

        從PPO到GRPO,DeepSeek-R1做對了什么?

        原標題:從PPO到GRPO,DeepSeek-R1做對了什么?
        文章來源:機器之心
        內容字數:2800字

        DeepSeek-R1與Kimi 1.5:強化學習新范式

        本文總結了機器之心PRO會員通訊中關于DeepSeek-R1和Kimi 1.5兩大模型的強化學習技術要點,重點關注其在推理能力提升方面的突破性進展。

        1. DeepSeek-R1:GRPO算法的優勢

        DeepSeek-R1成功復現了o1的推理能力,其核心技術亮點在于采用GRPO算法替代了傳統的PPO算法。這使得模型在減少計算資源消耗的同時,依然保持了強大的推理能力。

        1. GRPO與PPO的差異:PPO采用Actor-Critic架構,包含Actor(策略)、Critic(價值評估)、Reward(獎勵)和Reference(參考)四個模型。Critic模型評估模型的總收益,類似教練的角色。而GRPO則去除了Critic模型,降低了訓練成本。
        2. Rule-based Reward的應用:GRPO利用精心設計的Rule-based Reward替代了難以調試的Reward模型,直接對模型輸出進行判別,簡化了訓練流程,提高了效率。
        3. GRPO的優勢總結:GRPO算法通過去除Critic模型和采用Rule-based Reward,有效降低了訓練成本,同時保持了模型的推理能力,實現了在純強化學習環境下復現o1能力的目標。

        2. Kimi 1.5:Mirror Descent與GRPO的殊途同歸

        與DeepSeek-R1同時發布的Kimi 1.5也展現了媲美o1的推理能力,雖然其采用了不同的Policy Optimization方法——online Mirror Descent,但與DeepSeek-R1在技術方案上存在驚人的相似之處。

        1. 技術方案的相似性:兩者都采用了簡潔的RL框架,避免了復雜的樹搜索(如MCTS)和昂貴的PRM(概率路線圖),都專注于精心設計的參考事實獎勵機制。
        2. Rule-based Reward的共同點:兩者都成功地應用了Rule-based Reward,證明了這種方法在強化學習中提升模型推理能力的有效性。
        3. GRPO與Mirror Descent的比較:雖然GRPO和Mirror Descent是不同的優化算法,但它們都通過簡化RL框架,并巧妙地利用Rule-based Reward,最終實現了類似的效果,殊途同歸。

        3. Rule-based Reward的有效性

        DeepSeek-R1和Kimi 1.5的成功都證明了Rule-based Reward的有效性。相比復雜的Reward模型,Rule-based Reward更易于設計和調試,同時能夠有效引導模型學習,提升推理能力。這為未來的強化學習研究提供了新的方向。

        總而言之,DeepSeek-R1和Kimi 1.5的出現標志著強化學習在大型語言模型推理能力提升方面取得了重大突破。GRPO和Mirror Descent等新算法的應用,以及Rule-based Reward的有效性,為未來大型語言模型的訓練和優化提供了新的思路和方法。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产免费一区二区三区不卡| 特级毛片全部免费播放a一级| a在线观看免费网址大全| 免费人成在线观看视频播放| 亚洲人成色777777精品| 午夜免费福利影院| 亚洲精华国产精华精华液| 国产一区二区三区免费视频 | 亚洲国产精品免费在线观看| 亚洲AV无码国产在丝袜线观看| 青柠影视在线观看免费| 亚洲成a人片在线观看中文动漫 | 亚洲网站在线观看| 999任你躁在线精品免费不卡| 亚洲国产综合专区电影在线| 精品久久8x国产免费观看| 亚洲w码欧洲s码免费| 免费观看a级毛片| j8又粗又长又硬又爽免费视频 | 好男人视频在线观看免费看片| 亚洲精品无码专区在线| 无码专区一va亚洲v专区在线| 精品人妻系列无码人妻免费视频 | 无码人妻一区二区三区免费看| 亚洲第一香蕉视频| 日本一区二区三区日本免费| 2022免费国产精品福利在线| 亚洲AV乱码一区二区三区林ゆな| 日本阿v免费费视频完整版| 精品国产亚洲AV麻豆 | 一级免费黄色毛片| 久久精品亚洲综合专区| 无码日韩人妻av一区免费| 高潮毛片无遮挡高清免费 | 亚洲AV午夜成人片| 大地资源免费更新在线播放| caoporm碰最新免费公开视频| 91精品国产亚洲爽啪在线影院 | 永久免费无码网站在线观看| 久久国产乱子伦精品免费午夜| 亚洲最大的视频网站|