從PPO到GRPO,DeepSeek-R1做對了什么?
本期通訊22569字,可免費試讀至6%。

原標(biāo)題:從PPO到GRPO,DeepSeek-R1做對了什么?
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):2800字
DeepSeek-R1與Kimi 1.5:強(qiáng)化學(xué)習(xí)新范式
本文總結(jié)了機(jī)器之心PRO會員通訊中關(guān)于DeepSeek-R1和Kimi 1.5兩大模型的強(qiáng)化學(xué)習(xí)技術(shù)要點,重點關(guān)注其在推理能力提升方面的突破性進(jìn)展。
1. DeepSeek-R1:GRPO算法的優(yōu)勢
DeepSeek-R1成功復(fù)現(xiàn)了o1的推理能力,其核心技術(shù)亮點在于采用GRPO算法替代了傳統(tǒng)的PPO算法。這使得模型在減少計算資源消耗的同時,依然保持了強(qiáng)大的推理能力。
- GRPO與PPO的差異:PPO采用Actor-Critic架構(gòu),包含Actor(策略)、Critic(價值評估)、Reward(獎勵)和Reference(參考)四個模型。Critic模型評估模型的總收益,類似教練的角色。而GRPO則去除了Critic模型,降低了訓(xùn)練成本。
- Rule-based Reward的應(yīng)用:GRPO利用精心設(shè)計的Rule-based Reward替代了難以調(diào)試的Reward模型,直接對模型輸出進(jìn)行判別,簡化了訓(xùn)練流程,提高了效率。
- GRPO的優(yōu)勢總結(jié):GRPO算法通過去除Critic模型和采用Rule-based Reward,有效降低了訓(xùn)練成本,同時保持了模型的推理能力,實現(xiàn)了在純強(qiáng)化學(xué)習(xí)環(huán)境下復(fù)現(xiàn)o1能力的目標(biāo)。
2. Kimi 1.5:Mirror Descent與GRPO的殊途同歸
與DeepSeek-R1同時發(fā)布的Kimi 1.5也展現(xiàn)了媲美o1的推理能力,雖然其采用了不同的Policy Optimization方法——online Mirror Descent,但與DeepSeek-R1在技術(shù)方案上存在驚人的相似之處。
- 技術(shù)方案的相似性:兩者都采用了簡潔的RL框架,避免了復(fù)雜的樹搜索(如MCTS)和昂貴的PRM(概率路線圖),都專注于精心設(shè)計的參考事實獎勵機(jī)制。
- Rule-based Reward的共同點:兩者都成功地應(yīng)用了Rule-based Reward,證明了這種方法在強(qiáng)化學(xué)習(xí)中提升模型推理能力的有效性。
- GRPO與Mirror Descent的比較:雖然GRPO和Mirror Descent是不同的優(yōu)化算法,但它們都通過簡化RL框架,并巧妙地利用Rule-based Reward,最終實現(xiàn)了類似的效果,殊途同歸。
3. Rule-based Reward的有效性
DeepSeek-R1和Kimi 1.5的成功都證明了Rule-based Reward的有效性。相比復(fù)雜的Reward模型,Rule-based Reward更易于設(shè)計和調(diào)試,同時能夠有效引導(dǎo)模型學(xué)習(xí),提升推理能力。這為未來的強(qiáng)化學(xué)習(xí)研究提供了新的方向。
總而言之,DeepSeek-R1和Kimi 1.5的出現(xiàn)標(biāo)志著強(qiáng)化學(xué)習(xí)在大型語言模型推理能力提升方面取得了重大突破。GRPO和Mirror Descent等新算法的應(yīng)用,以及Rule-based Reward的有效性,為未來大型語言模型的訓(xùn)練和優(yōu)化提供了新的思路和方法。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號