<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        AIGC動態8個月前發布 智猩猩GenAI
        612 0 0

        關于R1的論文發表一些看法~

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        原標題:看DeepSeek R1的論文時,我突然想起了AlphaGo
        文章來源:智猩猩GenAI
        內容字數:4085字

        R1論文解讀:一種簡潔優雅的基于規則獎勵的強化學習方法

        本文對真中發表在知乎的R1論文解讀進行總結,該論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,用于提升大模型的推理能力。

        1. 基于規則的獎勵模型設計

        R1論文的核心亮點在于其基于規則的獎勵模型設計。作者拒絕使用基于模型的獎勵模型(PRM)和基于模型的優化目標(ORM),原因如下:

        1. 在一般推理中,明確界定細粒度的推理步驟比較困難。

        2. 判斷當前推理中間步驟是否正確非常困難,模型自動標注效果差強人意,人工標注難以擴展。

        3. PRM容易導致獎勵劫持問題,動態重訓獎勵模型資源開銷大。

        作者認為,雖然目前有很多方法可以提升PRM的可擴展性,但仍然存在幻覺問題,不如人工標注或LLM評判準確。因此,R1直接拋棄了基于模型的獎勵模型,體現了其魄力,也避免了獎勵劫持的風險。

        2. 模型訓練的多階段策略

        R1采用多階段訓練策略:

        1. R1 Zero階段:利用基礎模型+提示詞+基于規則的獎勵,直接進行基于梯度反向傳播的強化學習(GRPO),目標是提升做題準確率。此階段模型輸出不斷變長,開始學會反思,但推理過程難以理解。

        2. R1階段:利用R1 Zero生成的數據進行強化學習,篩選出推理過程正常的樣本,并混合一些非推理數據,對基礎模型進行監督微調(SFT),再進行強化學習,最終得到R1模型。

        作者認為,這種方法能夠直接在基礎模型上進行強化學習,是因為當前的大模型預訓練已經包含了SFT數據,模型越貼近預訓練,幻覺越少。模型在強化學習過程中自然產生反思,這可能是因為輸出變長后,模型會利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現”依賴于訓練數據的類型,強化學習能夠采樣出特定類型的響應,是值得進一步研究的課題。

        此外,論文使用了GRPO和K3 KL估計,避免了傳統KL loss的蒙特卡洛估計低效問題。

        3. 與AlphaGo的聯系

        作者將R1的訓練過程與AlphaGo到AlphaZero的演進過程進行了對比。AlphaGo先用模仿學習+強化學習訓練,再通過自我博弈產生AlphaZero。而R1則相反,先用強化學習訓練出R1 Zero,再利用其數據進行SFT+RL,最終得到R1。作者推測,DeepSeek可能先訓練了一個SFT+RL模型,再訓練出Zero,最后利用Zero數據訓練出最終模型。

        R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。

        4. 總結與展望

        R1論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,為提升大模型推理能力提供了新的方向。作者最后提出一個疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 99久久免费国产精精品| 4虎永免费最新永久免费地址| 成年美女黄网站18禁免费| 亚洲一区二区中文| 亚洲首页在线观看| 亚洲va中文字幕| 蜜臀91精品国产免费观看| 亚洲精品美女久久777777| 亚洲愉拍一区二区三区| 亚洲成在人线aⅴ免费毛片| 国产亚洲精aa在线看| 成人免费视频一区| 亚洲av无码偷拍在线观看| 色猫咪免费人成网站在线观看| 日本亚洲欧洲免费天堂午夜看片女人员 | 国内精品久久久久久久亚洲| 羞羞漫画在线成人漫画阅读免费| 国产一区视频在线免费观看| 全部一级一级毛片免费看| 日韩版码免费福利视频| 狠狠综合久久综合88亚洲| 在线看片免费人成视频福利| 免费一级毛片不卡不收费| 国产精品免费看久久久香蕉| 大学生一级特黄的免费大片视频 | 美女免费视频一区二区三区| 亚洲日韩在线中文字幕第一页| 在线亚洲午夜片AV大片| 毛片a级毛片免费观看免下载| 豆国产96在线|亚洲| 国产亚洲成人久久| gogo免费在线观看| 无码乱人伦一区二区亚洲| 污污视频网站免费观看| 国产亚洲精品自在久久| 欧洲一级毛片免费| 亚洲宅男永久在线| 四虎www成人影院免费观看| 久久久久女教师免费一区| 老司机亚洲精品影视www| 99热在线免费播放|