看DeepSeek R1的論文時，我突然想起了AlphaGo

AIGC動態8個月前發布智猩猩GenAI

612 0 0

關于R1的論文發表一些看法~

原標題：看DeepSeek R1的論文時，我突然想起了AlphaGo
文章來源：智猩猩GenAI
內容字數：4085字

R1論文解讀：一種簡潔優雅的基于規則獎勵的強化學習方法

本文對真中發表在知乎的R1論文解讀進行總結，該論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法，用于提升大模型的推理能力。

1. 基于規則的獎勵模型設計

R1論文的核心亮點在于其基于規則的獎勵模型設計。作者拒絕使用基于模型的獎勵模型（PRM）和基于模型的優化目標（ORM），原因如下：

在一般推理中，明確界定細粒度的推理步驟比較困難。
判斷當前推理中間步驟是否正確非常困難，模型自動標注效果差強人意，人工標注難以擴展。
PRM容易導致獎勵劫持問題，動態重訓獎勵模型資源開銷大。

作者認為，雖然目前有很多方法可以提升PRM的可擴展性，但仍然存在幻覺問題，不如人工標注或LLM評判準確。因此，R1直接拋棄了基于模型的獎勵模型，體現了其魄力，也避免了獎勵劫持的風險。

2. 模型訓練的多階段策略

R1采用多階段訓練策略：

R1 Zero階段：利用基礎模型+提示詞+基于規則的獎勵，直接進行基于梯度反向傳播的強化學習（GRPO），目標是提升做題準確率。此階段模型輸出不斷變長，開始學會反思，但推理過程難以理解。
R1階段：利用R1 Zero生成的數據進行強化學習，篩選出推理過程正常的樣本，并混合一些非推理數據，對基礎模型進行監督微調（SFT），再進行強化學習，最終得到R1模型。

作者認為，這種方法能夠直接在基礎模型上進行強化學習，是因為當前的大模型預訓練已經包含了SFT數據，模型越貼近預訓練，幻覺越少。模型在強化學習過程中自然產生反思，這可能是因為輸出變長后，模型會利用剩余的“額度”去檢查答案。作者指出，模型能力的“涌現”依賴于訓練數據的類型，強化學習能夠采樣出特定類型的響應，是值得進一步研究的課題。

此外，論文使用了GRPO和K3 KL估計，避免了傳統KL loss的蒙特卡洛估計低效問題。

3. 與AlphaGo的聯系

作者將R1的訓練過程與AlphaGo到AlphaZero的演進過程進行了對比。AlphaGo先用模仿學習+強化學習訓練，再通過自我博弈產生AlphaZero。而R1則相反，先用強化學習訓練出R1 Zero，再利用其數據進行SFT+RL，最終得到R1。作者推測，DeepSeek可能先訓練了一個SFT+RL模型，再訓練出Zero，最后利用Zero數據訓練出最終模型。

R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索（MCTS），但DeepSeek的探索最終失敗了。

4. 總結與展望

R1論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法，為提升大模型推理能力提供了新的方向。作者最后提出一個疑問：這種方法能否在100B甚至更小的模型上奏效？這將是未來研究的重要方向。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # 博弈樹搜索 # 強化學習 # 深度學習 # 蒙特卡洛樹搜索 # 蛋白質結構預測

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

看DeepSeek R1的論文時，我突然想起了AlphaGo

關于R1的論文發表一些看法~

R1論文解讀：一種簡潔優雅的基于規則獎勵的強化學習方法

1. 基于規則的獎勵模型設計

2. 模型訓練的多階段策略

3. 與AlphaGo的聯系

4. 總結與展望

聯系作者

過年了，百度整活會講方言的34 省智能體，這波語音技術太頂了

春節機票「跳水」，部分航線跌至百元/極越汽車 CEO 被限制高消費/小米 15 Ultra 真機遭曝光

相關文章

暫無評論

ChatGPT

玩虛擬模特？