<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        AIGC動態4個月前發布 智猩猩GenAI
        584 0 0

        關于R1的論文發表一些看法~

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        原標題:看DeepSeek R1的論文時,我突然想起了AlphaGo
        文章來源:智猩猩GenAI
        內容字數:4085字

        R1論文解讀:一種簡潔優雅的基于規則獎勵的強化學習方法

        本文對真中發表在知乎的R1論文解讀進行總結,該論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,用于提升大模型的推理能力。

        1. 基于規則的獎勵模型設計

        R1論文的核心亮點在于其基于規則的獎勵模型設計。作者拒絕使用基于模型的獎勵模型(PRM)和基于模型的優化目標(ORM),原因如下:

        1. 在一般推理中,明確界定細粒度的推理步驟比較困難。

        2. 判斷當前推理中間步驟是否正確非常困難,模型自動標注效果差強人意,人工標注難以擴展。

        3. PRM容易導致獎勵劫持問題,動態重訓獎勵模型資源開銷大。

        作者認為,雖然目前有很多方法可以提升PRM的可擴展性,但仍然存在幻覺問題,不如人工標注或LLM評判準確。因此,R1直接拋棄了基于模型的獎勵模型,體現了其魄力,也避免了獎勵劫持的風險。

        2. 模型訓練的多階段策略

        R1采用多階段訓練策略:

        1. R1 Zero階段:利用基礎模型+提示詞+基于規則的獎勵,直接進行基于梯度反向傳播的強化學習(GRPO),目標是提升做題準確率。此階段模型輸出不斷變長,開始學會反思,但推理過程難以理解。

        2. R1階段:利用R1 Zero生成的數據進行強化學習,篩選出推理過程正常的樣本,并混合一些非推理數據,對基礎模型進行監督微調(SFT),再進行強化學習,最終得到R1模型。

        作者認為,這種方法能夠直接在基礎模型上進行強化學習,是因為當前的大模型預訓練已經包含了SFT數據,模型越貼近預訓練,幻覺越少。模型在強化學習過程中自然產生反思,這可能是因為輸出變長后,模型會利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現”依賴于訓練數據的類型,強化學習能夠采樣出特定類型的響應,是值得進一步研究的課題。

        此外,論文使用了GRPO和K3 KL估計,避免了傳統KL loss的蒙特卡洛估計低效問題。

        3. 與AlphaGo的聯系

        作者將R1的訓練過程與AlphaGo到AlphaZero的演進過程進行了對比。AlphaGo先用模仿學習+強化學習訓練,再通過自我博弈產生AlphaZero。而R1則相反,先用強化學習訓練出R1 Zero,再利用其數據進行SFT+RL,最終得到R1。作者推測,DeepSeek可能先訓練了一個SFT+RL模型,再訓練出Zero,最后利用Zero數據訓練出最終模型。

        R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。

        4. 總結與展望

        R1論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,為提升大模型推理能力提供了新的方向。作者最后提出一個疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人亚洲综合在线| 亚洲日韩精品A∨片无码加勒比| 深夜a级毛片免费视频| 日本免费一二区在线电影| 亚洲熟妇AV一区二区三区宅男| 国产又黄又爽又猛免费app| 亚洲国产成人精品青青草原| 亚洲黄色免费电影| 亚洲综合伊人制服丝袜美腿| 思思re热免费精品视频66| 久久久久亚洲国产| 好爽又高潮了毛片免费下载| 亚洲一线产品二线产品| 日韩免费视频观看| 一级毛片在线免费播放| 亚洲精品国产字幕久久不卡| 亚洲免费视频网站| 亚洲一欧洲中文字幕在线| 日本免费电影一区| a级毛片免费观看网站| 亚洲精品天天影视综合网| 国产成人精品免费视频大全麻豆| 最新亚洲春色Av无码专区| 亚洲va中文字幕无码| 女人隐私秘视频黄www免费| 亚洲第一页中文字幕| 精品国产一区二区三区免费看| 日本一区二区在线免费观看| 亚洲成AV人片一区二区| 无码人妻一区二区三区免费手机| 亚洲Aⅴ在线无码播放毛片一线天| 国产亚洲自拍一区| 大学生一级毛片免费看| 青青草97国产精品免费观看| 亚洲Av熟妇高潮30p| 精品国产免费观看久久久| 巨胸喷奶水www永久免费| 亚洲人成电影在线观看青青| 免费成人黄色大片| 精品福利一区二区三区免费视频| 国产偷国产偷亚洲高清人|