<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從PPO到GRPO,DeepSeek-R1做對了什么?

        AIGC動態5個月前發布 機器之心
        416 0 0

        本期通訊22569字,可免費試讀至6%。

        從PPO到GRPO,DeepSeek-R1做對了什么?

        原標題:從PPO到GRPO,DeepSeek-R1做對了什么?
        文章來源:機器之心
        內容字數:2800字

        DeepSeek-R1與Kimi 1.5:強化學習新范式

        本文總結了機器之心PRO會員通訊中關于DeepSeek-R1和Kimi 1.5兩大模型的強化學習技術要點,重點關注其在推理能力提升方面的突破性進展。

        1. DeepSeek-R1:GRPO算法的優勢

        DeepSeek-R1成功復現了o1的推理能力,其核心技術亮點在于采用GRPO算法替代了傳統的PPO算法。這使得模型在減少計算資源消耗的同時,依然保持了強大的推理能力。

        1. GRPO與PPO的差異:PPO采用Actor-Critic架構,包含Actor(策略)、Critic(價值評估)、Reward(獎勵)和Reference(參考)四個模型。Critic模型評估模型的總收益,類似教練的角色。而GRPO則去除了Critic模型,降低了訓練成本。
        2. Rule-based Reward的應用:GRPO利用精心設計的Rule-based Reward替代了難以調試的Reward模型,直接對模型輸出進行判別,簡化了訓練流程,提高了效率。
        3. GRPO的優勢總結:GRPO算法通過去除Critic模型和采用Rule-based Reward,有效降低了訓練成本,同時保持了模型的推理能力,實現了在純強化學習環境下復現o1能力的目標。

        2. Kimi 1.5:Mirror Descent與GRPO的殊途同歸

        與DeepSeek-R1同時發布的Kimi 1.5也展現了媲美o1的推理能力,雖然其采用了不同的Policy Optimization方法——online Mirror Descent,但與DeepSeek-R1在技術方案上存在驚人的相似之處。

        1. 技術方案的相似性:兩者都采用了簡潔的RL框架,避免了復雜的樹搜索(如MCTS)和昂貴的PRM(概率路線圖),都專注于精心設計的參考事實獎勵機制。
        2. Rule-based Reward的共同點:兩者都成功地應用了Rule-based Reward,證明了這種方法在強化學習中提升模型推理能力的有效性。
        3. GRPO與Mirror Descent的比較:雖然GRPO和Mirror Descent是不同的優化算法,但它們都通過簡化RL框架,并巧妙地利用Rule-based Reward,最終實現了類似的效果,殊途同歸。

        3. Rule-based Reward的有效性

        DeepSeek-R1和Kimi 1.5的成功都證明了Rule-based Reward的有效性。相比復雜的Reward模型,Rule-based Reward更易于設計和調試,同時能夠有效引導模型學習,提升推理能力。這為未來的強化學習研究提供了新的方向。

        總而言之,DeepSeek-R1和Kimi 1.5的出現標志著強化學習在大型語言模型推理能力提升方面取得了重大突破。GRPO和Mirror Descent等新算法的應用,以及Rule-based Reward的有效性,為未來大型語言模型的訓練和優化提供了新的思路和方法。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产精品免费αv视频| 久久精品国产精品亚洲人人 | 亚洲人成伊人成综合网久久| fc2免费人成在线视频| 色噜噜亚洲精品中文字幕| free哆拍拍免费永久视频| 久久精品国产亚洲7777| 中文字幕无码免费久久| 亚洲国产天堂在线观看| 嘿嘿嘿视频免费网站在线观看| 免费看美女被靠到爽的视频| 亚洲人成无码网WWW| 香蕉免费一级视频在线观看| 久久亚洲综合色一区二区三区| 日韩免费在线视频| 亚洲精品成人网站在线播放| 免费a级毛片高清视频不卡| 含羞草国产亚洲精品岁国产精品 | 四虎免费影院ww4164h| 亚洲毛片不卡av在线播放一区| 亚洲日韩国产精品无码av| 99在线视频免费观看视频| 亚洲av无码专区在线播放| 久久精品国产免费观看| 亚洲Av永久无码精品黑人| 久久九九兔免费精品6| 亚洲AV成人无码网天堂| 亚洲中文字幕无码中文字在线| 13小箩利洗澡无码视频网站免费| 亚洲精品亚洲人成在线观看麻豆| 日韩在线免费播放| 中文字幕看片在线a免费| 亚洲免费在线视频观看| 亚洲Av无码国产情品久久| 亚洲成AV人影片在线观看| AV在线亚洲男人的天堂| 18禁止看的免费污网站| 久久丫精品国产亚洲av不卡| 最近免费中文字幕4| 两个人日本WWW免费版| 亚洲无人区码一二三码区别图片|