關于R1的論文發表一些看法~
原標題:看DeepSeek R1的論文時,我突然想起了AlphaGo
文章來源:智猩猩GenAI
內容字數:4085字
R1論文解讀:一種簡潔優雅的基于規則獎勵的強化學習方法
本文對真中發表在知乎的R1論文解讀進行總結,該論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,用于提升大模型的推理能力。
1. 基于規則的獎勵模型設計
R1論文的核心亮點在于其基于規則的獎勵模型設計。作者拒絕使用基于模型的獎勵模型(PRM)和基于模型的優化目標(ORM),原因如下:
在一般推理中,明確界定細粒度的推理步驟比較困難。
判斷當前推理中間步驟是否正確非常困難,模型自動標注效果差強人意,人工標注難以擴展。
PRM容易導致獎勵劫持問題,動態重訓獎勵模型資源開銷大。
作者認為,雖然目前有很多方法可以提升PRM的可擴展性,但仍然存在幻覺問題,不如人工標注或LLM評判準確。因此,R1直接拋棄了基于模型的獎勵模型,體現了其魄力,也避免了獎勵劫持的風險。
2. 模型訓練的多階段策略
R1采用多階段訓練策略:
R1 Zero階段:利用基礎模型+提示詞+基于規則的獎勵,直接進行基于梯度反向傳播的強化學習(GRPO),目標是提升做題準確率。此階段模型輸出不斷變長,開始學會反思,但推理過程難以理解。
R1階段:利用R1 Zero生成的數據進行強化學習,篩選出推理過程正常的樣本,并混合一些非推理數據,對基礎模型進行監督微調(SFT),再進行強化學習,最終得到R1模型。
作者認為,這種方法能夠直接在基礎模型上進行強化學習,是因為當前的大模型預訓練已經包含了SFT數據,模型越貼近預訓練,幻覺越少。模型在強化學習過程中自然產生反思,這可能是因為輸出變長后,模型會利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現”依賴于訓練數據的類型,強化學習能夠采樣出特定類型的響應,是值得進一步研究的課題。
此外,論文使用了GRPO和K3 KL估計,避免了傳統KL loss的蒙特卡洛估計低效問題。
3. 與AlphaGo的聯系
作者將R1的訓練過程與AlphaGo到AlphaZero的演進過程進行了對比。AlphaGo先用模仿學習+強化學習訓練,再通過自我博弈產生AlphaZero。而R1則相反,先用強化學習訓練出R1 Zero,再利用其數據進行SFT+RL,最終得到R1。作者推測,DeepSeek可能先訓練了一個SFT+RL模型,再訓練出Zero,最后利用Zero數據訓練出最終模型。
R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。
4. 總結與展望
R1論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,為提升大模型推理能力提供了新的方向。作者最后提出一個疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。