從PPO到GRPO，DeepSeek-R1做對了什么？

本期通訊22569字，可免費試讀至6%。

原標題：從PPO到GRPO，DeepSeek-R1做對了什么？
文章來源：機器之心
內容字數：2800字

本文總結了機器之心PRO會員通訊中關于DeepSeek-R1和Kimi 1.5兩大模型的強化學習技術要點，重點關注其在推理能力提升方面的突破性進展。

DeepSeek-R1成功復現了o1的推理能力，其核心技術亮點在于采用GRPO算法替代了傳統的PPO算法。這使得模型在減少計算資源消耗的同時，依然保持了強大的推理能力。

GRPO與PPO的差異：PPO采用Actor-Critic架構，包含Actor(策略)、Critic(價值評估)、Reward(獎勵)和Reference(參考)四個模型。Critic模型評估模型的總收益，類似教練的角色。而GRPO則去除了Critic模型，降低了訓練成本。
Rule-based Reward的應用：GRPO利用精心設計的Rule-based Reward替代了難以調試的Reward模型，直接對模型輸出進行判別，簡化了訓練流程，提高了效率。
GRPO的優勢總結：GRPO算法通過去除Critic模型和采用Rule-based Reward，有效降低了訓練成本，同時保持了模型的推理能力，實現了在純強化學習環境下復現o1能力的目標。

與DeepSeek-R1同時發布的Kimi 1.5也展現了媲美o1的推理能力，雖然其采用了不同的Policy Optimization方法——online Mirror Descent，但與DeepSeek-R1在技術方案上存在驚人的相似之處。

技術方案的相似性：兩者都采用了簡潔的RL框架，避免了復雜的樹搜索（如MCTS）和昂貴的PRM（概率路線圖），都專注于精心設計的參考事實獎勵機制。
Rule-based Reward的共同點：兩者都成功地應用了Rule-based Reward，證明了這種方法在強化學習中提升模型推理能力的有效性。
GRPO與Mirror Descent的比較：雖然GRPO和Mirror Descent是不同的優化算法，但它們都通過簡化RL框架，并巧妙地利用Rule-based Reward，最終實現了類似的效果，殊途同歸。

DeepSeek-R1和Kimi 1.5的成功都證明了Rule-based Reward的有效性。相比復雜的Reward模型，Rule-based Reward更易于設計和調試，同時能夠有效引導模型學習，提升推理能力。這為未來的強化學習研究提供了新的方向。

總而言之，DeepSeek-R1和Kimi 1.5的出現標志著強化學習在大型語言模型推理能力提升方面取得了重大突破。GRPO和Mirror Descent等新算法的應用，以及Rule-based Reward的有效性，為未來大型語言模型的訓練和優化提供了新的思路和方法。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...