從字節(jié)ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)
Reasoning Model,RL is all your need !!!
原標(biāo)題:從字節(jié)ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):22978字
國(guó)產(chǎn)Reasoning Model復(fù)現(xiàn):精巧簡(jiǎn)潔的RL方案
本文總結(jié)了三篇關(guān)于Reasoning Model(推理模型)的優(yōu)秀工作:字節(jié)的ReFT、Kimi的K1.5和DeepSeek的R1,它們的核心方法驚人地一致:在Post-Training階段通過強(qiáng)化學(xué)習(xí)(RL)來提升模型的推理能力。這展現(xiàn)了國(guó)產(chǎn)模型在復(fù)現(xiàn)OpenAI等公司成果上的精巧和簡(jiǎn)潔。
1. 早期猜想與局限性
文章首先回顧了對(duì)OpenAI等公司Reasoning Model早期技術(shù)的猜想,主要集中在PRM(過程監(jiān)督獎(jiǎng)勵(lì)模型)和MCTS(蒙特卡洛樹搜索)方法。PRM通過分步驟打分來提供更精細(xì)的監(jiān)督信號(hào),MCTS則通過樹搜索來探索解空間。然而,PRM需要定義精細(xì)的執(zhí)行步驟,且對(duì)數(shù)據(jù)質(zhì)量要求高;MCTS則面臨搜索空間的問題,節(jié)點(diǎn)空間定義也十分困難。這些局限性導(dǎo)致實(shí)際復(fù)現(xiàn)中很少采用這些方法。
2. 三篇核心工作的比較
文章重點(diǎn)介紹了ReFT、K1.5和R1這三篇工作的核心思路。它們都采用了RL,但在具體實(shí)現(xiàn)上各有側(cè)重:
2.1 ReFT: 簡(jiǎn)化PPO的RL方案
ReFT采用PPO算法,但簡(jiǎn)化了Reward Model,使用Rule-Base RM(基于規(guī)則的獎(jiǎng)勵(lì)模型)來判斷答案正確性,并通過參數(shù)共享來降低Critic Model的計(jì)算復(fù)雜度。此外,ReFT還對(duì)比了兩種Self-Training方法,展現(xiàn)了RL方案的優(yōu)勢(shì)。
2.2 Kimi K1.5: 精細(xì)化的RL和采樣策略
Kimi K1.5在預(yù)訓(xùn)練和監(jiān)督微調(diào)后,采用了一種簡(jiǎn)化的類Policy Gradient方法進(jìn)行RL訓(xùn)練,避免了Critic Model的計(jì)算。其Reward Model設(shè)計(jì)精細(xì),針對(duì)不同問題和訓(xùn)練階段有不同的策略。此外,Kimi還采用了課程采樣和優(yōu)先采樣策略來提高訓(xùn)練效率。
2.3 DeepSeek R1: 激進(jìn)的純RL與多階段優(yōu)化
DeepSeek R1首先進(jìn)行了激進(jìn)的純RL實(shí)驗(yàn)(R1-Zero),但模型存在可讀性差等問題。因此,R1在R1-Zero基礎(chǔ)上,進(jìn)行了多階段優(yōu)化,包括SFT、RL、增強(qiáng)SFT和增強(qiáng)RL,最終提升了模型的通用性和推理能力。DeepSeek也使用了Rule-Based Reward Model,并增加了語(yǔ)言一致性獎(jiǎng)勵(lì)。
3. 總結(jié)
文章總結(jié)指出,這三篇工作都通過RL在Post-Training階段有效提升了模型的推理能力,展現(xiàn)了國(guó)產(chǎn)模型在Reasoning Model復(fù)現(xiàn)上的成就。其方法精巧簡(jiǎn)潔,通過清晰的目標(biāo)設(shè)定和對(duì)RL的巧妙運(yùn)用,實(shí)現(xiàn)了對(duì)復(fù)雜問題推理能力的有效提升。最終,文章以“Reasoning Model,RL is all you need”來概括其核心思想。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。