從字節(jié)ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)

Reasoning Model，RL is all your need ！！！

原標(biāo)題：從字節(jié)ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：22978字

國(guó)產(chǎn)Reasoning Model復(fù)現(xiàn)：精巧簡(jiǎn)潔的RL方案

本文總結(jié)了三篇關(guān)于Reasoning Model（推理模型）的優(yōu)秀工作：字節(jié)的ReFT、Kimi的K1.5和DeepSeek的R1，它們的核心方法驚人地一致：在Post-Training階段通過強(qiáng)化學(xué)習(xí)（RL）來提升模型的推理能力。這展現(xiàn)了國(guó)產(chǎn)模型在復(fù)現(xiàn)OpenAI等公司成果上的精巧和簡(jiǎn)潔。

1. 早期猜想與局限性

文章首先回顧了對(duì)OpenAI等公司Reasoning Model早期技術(shù)的猜想，主要集中在PRM（過程監(jiān)督獎(jiǎng)勵(lì)模型）和MCTS（蒙特卡洛樹搜索）方法。PRM通過分步驟打分來提供更精細(xì)的監(jiān)督信號(hào)，MCTS則通過樹搜索來探索解空間。然而，PRM需要定義精細(xì)的執(zhí)行步驟，且對(duì)數(shù)據(jù)質(zhì)量要求高；MCTS則面臨搜索空間的問題，節(jié)點(diǎn)空間定義也十分困難。這些局限性導(dǎo)致實(shí)際復(fù)現(xiàn)中很少采用這些方法。

2. 三篇核心工作的比較

文章重點(diǎn)介紹了ReFT、K1.5和R1這三篇工作的核心思路。它們都采用了RL，但在具體實(shí)現(xiàn)上各有側(cè)重：

2.1 ReFT: 簡(jiǎn)化PPO的RL方案

ReFT采用PPO算法，但簡(jiǎn)化了Reward Model，使用Rule-Base RM（基于規(guī)則的獎(jiǎng)勵(lì)模型）來判斷答案正確性，并通過參數(shù)共享來降低Critic Model的計(jì)算復(fù)雜度。此外，ReFT還對(duì)比了兩種Self-Training方法，展現(xiàn)了RL方案的優(yōu)勢(shì)。

2.2 Kimi K1.5: 精細(xì)化的RL和采樣策略

Kimi K1.5在預(yù)訓(xùn)練和監(jiān)督微調(diào)后，采用了一種簡(jiǎn)化的類Policy Gradient方法進(jìn)行RL訓(xùn)練，避免了Critic Model的計(jì)算。其Reward Model設(shè)計(jì)精細(xì)，針對(duì)不同問題和訓(xùn)練階段有不同的策略。此外，Kimi還采用了課程采樣和優(yōu)先采樣策略來提高訓(xùn)練效率。

2.3 DeepSeek R1: 激進(jìn)的純RL與多階段優(yōu)化

DeepSeek R1首先進(jìn)行了激進(jìn)的純RL實(shí)驗(yàn)（R1-Zero），但模型存在可讀性差等問題。因此，R1在R1-Zero基礎(chǔ)上，進(jìn)行了多階段優(yōu)化，包括SFT、RL、增強(qiáng)SFT和增強(qiáng)RL，最終提升了模型的通用性和推理能力。DeepSeek也使用了Rule-Based Reward Model，并增加了語(yǔ)言一致性獎(jiǎng)勵(lì)。

3. 總結(jié)

文章總結(jié)指出，這三篇工作都通過RL在Post-Training階段有效提升了模型的推理能力，展現(xiàn)了國(guó)產(chǎn)模型在Reasoning Model復(fù)現(xiàn)上的成就。其方法精巧簡(jiǎn)潔，通過清晰的目標(biāo)設(shè)定和對(duì)RL的巧妙運(yùn)用，實(shí)現(xiàn)了對(duì)復(fù)雜問題推理能力的有效提升。最終，文章以“Reasoning Model，RL is all you need”來概括其核心思想。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下賬號(hào)，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeekR1 # 字節(jié)ReFT # 推理模型 # 精巧實(shí)現(xiàn)# 長(zhǎng)尾關(guān)鍵字

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

從字節(jié)ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)

Reasoning Model，RL is all your need ！！！

國(guó)產(chǎn)Reasoning Model復(fù)現(xiàn)：精巧簡(jiǎn)潔的RL方案

1. 早期猜想與局限性

2. 三篇核心工作的比較

2.1 ReFT: 簡(jiǎn)化PPO的RL方案

2.2 Kimi K1.5: 精細(xì)化的RL和采樣策略

2.3 DeepSeek R1: 激進(jìn)的純RL與多階段優(yōu)化

3. 總結(jié)

聯(lián)系作者

DeepSeek R1 之后，提示詞技巧的變與不變

今年春節(jié)，到處都是AI機(jī)器人

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)