看DeepSeek R1的論文時(shí),我突然想起了AlphaGo
關(guān)于R1的論文發(fā)表一些看法~
原標(biāo)題:看DeepSeek R1的論文時(shí),我突然想起了AlphaGo
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):4085字
R1論文解讀:一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法
本文對(duì)真中發(fā)表在知乎的R1論文解讀進(jìn)行總結(jié),該論文提出了一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法,用于提升大模型的推理能力。
1. 基于規(guī)則的獎(jiǎng)勵(lì)模型設(shè)計(jì)
R1論文的核心亮點(diǎn)在于其基于規(guī)則的獎(jiǎng)勵(lì)模型設(shè)計(jì)。作者拒絕使用基于模型的獎(jiǎng)勵(lì)模型(PRM)和基于模型的優(yōu)化目標(biāo)(ORM),原因如下:
在一般推理中,明確界定細(xì)粒度的推理步驟比較困難。
判斷當(dāng)前推理中間步驟是否正確非常困難,模型自動(dòng)標(biāo)注效果差強(qiáng)人意,人工標(biāo)注難以擴(kuò)展。
PRM容易導(dǎo)致獎(jiǎng)勵(lì)劫持問題,動(dòng)態(tài)重訓(xùn)獎(jiǎng)勵(lì)模型資源開銷大。
作者認(rèn)為,雖然目前有很多方法可以提升PRM的可擴(kuò)展性,但仍然存在幻覺問題,不如人工標(biāo)注或LLM評(píng)判準(zhǔn)確。因此,R1直接拋棄了基于模型的獎(jiǎng)勵(lì)模型,體現(xiàn)了其魄力,也避免了獎(jiǎng)勵(lì)劫持的風(fēng)險(xiǎn)。
2. 模型訓(xùn)練的多階段策略
R1采用多階段訓(xùn)練策略:
R1 Zero階段:利用基礎(chǔ)模型+提示詞+基于規(guī)則的獎(jiǎng)勵(lì),直接進(jìn)行基于梯度反向傳播的強(qiáng)化學(xué)習(xí)(GRPO),目標(biāo)是提升做題準(zhǔn)確率。此階段模型輸出不斷變長(zhǎng),開始學(xué)會(huì)反思,但推理過程難以理解。
R1階段:利用R1 Zero生成的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),篩選出推理過程正常的樣本,并混合一些非推理數(shù)據(jù),對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)(SFT),再進(jìn)行強(qiáng)化學(xué)習(xí),最終得到R1模型。
作者認(rèn)為,這種方法能夠直接在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí),是因?yàn)楫?dāng)前的大模型預(yù)訓(xùn)練已經(jīng)包含了SFT數(shù)據(jù),模型越貼近預(yù)訓(xùn)練,幻覺越少。模型在強(qiáng)化學(xué)習(xí)過程中自然產(chǎn)生反思,這可能是因?yàn)檩敵鲎冮L(zhǎng)后,模型會(huì)利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現(xiàn)”依賴于訓(xùn)練數(shù)據(jù)的類型,強(qiáng)化學(xué)習(xí)能夠采樣出特定類型的響應(yīng),是值得進(jìn)一步研究的課題。
此外,論文使用了GRPO和K3 KL估計(jì),避免了傳統(tǒng)KL loss的蒙特卡洛估計(jì)低效問題。
3. 與AlphaGo的聯(lián)系
作者將R1的訓(xùn)練過程與AlphaGo到AlphaZero的演進(jìn)過程進(jìn)行了對(duì)比。AlphaGo先用模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí)訓(xùn)練,再通過自我博弈產(chǎn)生AlphaZero。而R1則相反,先用強(qiáng)化學(xué)習(xí)訓(xùn)練出R1 Zero,再利用其數(shù)據(jù)進(jìn)行SFT+RL,最終得到R1。作者推測(cè),DeepSeek可能先訓(xùn)練了一個(gè)SFT+RL模型,再訓(xùn)練出Zero,最后利用Zero數(shù)據(jù)訓(xùn)練出最終模型。
R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。
4. 總結(jié)與展望
R1論文提出了一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法,為提升大模型推理能力提供了新的方向。作者最后提出一個(gè)疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。