<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        看DeepSeek R1的論文時(shí),我突然想起了AlphaGo

        AIGC動(dòng)態(tài)6個(gè)月前發(fā)布 智猩猩GenAI
        595 0 0

        關(guān)于R1的論文發(fā)表一些看法~

        看DeepSeek R1的論文時(shí),我突然想起了AlphaGo

        原標(biāo)題:看DeepSeek R1的論文時(shí),我突然想起了AlphaGo
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):4085字

        R1論文解讀:一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法

        本文對(duì)真中發(fā)表在知乎的R1論文解讀進(jìn)行總結(jié),該論文提出了一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法,用于提升大模型的推理能力。

        1. 基于規(guī)則的獎(jiǎng)勵(lì)模型設(shè)計(jì)

        R1論文的核心亮點(diǎn)在于其基于規(guī)則的獎(jiǎng)勵(lì)模型設(shè)計(jì)。作者拒絕使用基于模型的獎(jiǎng)勵(lì)模型(PRM)和基于模型的優(yōu)化目標(biāo)(ORM),原因如下:

        1. 在一般推理中,明確界定細(xì)粒度的推理步驟比較困難。

        2. 判斷當(dāng)前推理中間步驟是否正確非常困難,模型自動(dòng)標(biāo)注效果差強(qiáng)人意,人工標(biāo)注難以擴(kuò)展。

        3. PRM容易導(dǎo)致獎(jiǎng)勵(lì)劫持問題,動(dòng)態(tài)重訓(xùn)獎(jiǎng)勵(lì)模型資源開銷大。

        作者認(rèn)為,雖然目前有很多方法可以提升PRM的可擴(kuò)展性,但仍然存在幻覺問題,不如人工標(biāo)注或LLM評(píng)判準(zhǔn)確。因此,R1直接拋棄了基于模型的獎(jiǎng)勵(lì)模型,體現(xiàn)了其魄力,也避免了獎(jiǎng)勵(lì)劫持的風(fēng)險(xiǎn)。

        2. 模型訓(xùn)練的多階段策略

        R1采用多階段訓(xùn)練策略:

        1. R1 Zero階段:利用基礎(chǔ)模型+提示詞+基于規(guī)則的獎(jiǎng)勵(lì),直接進(jìn)行基于梯度反向傳播的強(qiáng)化學(xué)習(xí)(GRPO),目標(biāo)是提升做題準(zhǔn)確率。此階段模型輸出不斷變長(zhǎng),開始學(xué)會(huì)反思,但推理過程難以理解。

        2. R1階段:利用R1 Zero生成的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),篩選出推理過程正常的樣本,并混合一些非推理數(shù)據(jù),對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)(SFT),再進(jìn)行強(qiáng)化學(xué)習(xí),最終得到R1模型。

        作者認(rèn)為,這種方法能夠直接在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí),是因?yàn)楫?dāng)前的大模型預(yù)訓(xùn)練已經(jīng)包含了SFT數(shù)據(jù),模型越貼近預(yù)訓(xùn)練,幻覺越少。模型在強(qiáng)化學(xué)習(xí)過程中自然產(chǎn)生反思,這可能是因?yàn)檩敵鲎冮L(zhǎng)后,模型會(huì)利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現(xiàn)”依賴于訓(xùn)練數(shù)據(jù)的類型,強(qiáng)化學(xué)習(xí)能夠采樣出特定類型的響應(yīng),是值得進(jìn)一步研究的課題。

        此外,論文使用了GRPO和K3 KL估計(jì),避免了傳統(tǒng)KL loss的蒙特卡洛估計(jì)低效問題。

        3. 與AlphaGo的聯(lián)系

        作者將R1的訓(xùn)練過程與AlphaGo到AlphaZero的演進(jìn)過程進(jìn)行了對(duì)比。AlphaGo先用模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí)訓(xùn)練,再通過自我博弈產(chǎn)生AlphaZero。而R1則相反,先用強(qiáng)化學(xué)習(xí)訓(xùn)練出R1 Zero,再利用其數(shù)據(jù)進(jìn)行SFT+RL,最終得到R1。作者推測(cè),DeepSeek可能先訓(xùn)練了一個(gè)SFT+RL模型,再訓(xùn)練出Zero,最后利用Zero數(shù)據(jù)訓(xùn)練出最終模型。

        R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。

        4. 總結(jié)與展望

        R1論文提出了一種簡(jiǎn)潔優(yōu)雅的基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法,為提升大模型推理能力提供了新的方向。作者最后提出一個(gè)疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 91成人免费观看网站| 亚洲视频在线免费看| 亚洲Av永久无码精品黑人| 亚洲精品无码专区在线| 久久国产乱子伦精品免费看| 国产日产亚洲系列最新| 一区二区三区免费在线视频| a在线观看免费视频| 国产∨亚洲V天堂无码久久久| a国产成人免费视频| 久久精品国产亚洲av麻豆| 99精品在线免费观看| 亚洲精品日韩专区silk| 成人黄色免费网址| 在线亚洲高清揄拍自拍一品区| 最好免费观看韩国+日本| 亚洲成年网站在线观看| 四虎影视免费永久在线观看 | 成人午夜免费福利| 亚洲高清毛片一区二区| 免费观看国产精品| 三级黄色免费观看| 亚洲精品在线免费看| 女人被弄到高潮的免费视频| 老司机午夜免费视频| 亚洲精品国产精品乱码不卡√ | 亚洲日韩在线观看| 久久久99精品免费观看| 亚洲狠狠ady亚洲精品大秀| 免费a级毛片无码a∨蜜芽试看| 国产成人亚洲精品电影| 免费看黄视频网站| 国产成人亚洲综合无| 亚洲国产精品一区二区成人片国内 | 免费看美女被靠到爽| 国产福利电影一区二区三区,免费久久久久久久精 | 久久亚洲私人国产精品| 小小影视日本动漫观看免费| 日韩精品无码免费专区网站| 久久狠狠爱亚洲综合影院| 国产日韩成人亚洲丁香婷婷|