<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從字節(jié)ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)

        AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 智猩猩GenAI
        312 0 0

        Reasoning Model,RL is all your need !!!

        從字節(jié)ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)

        原標(biāo)題:從字節(jié)ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實(shí)現(xiàn)
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):22978字

        國(guó)產(chǎn)Reasoning Model復(fù)現(xiàn):精巧簡(jiǎn)潔的RL方案

        本文總結(jié)了三篇關(guān)于Reasoning Model(推理模型)的優(yōu)秀工作:字節(jié)的ReFT、Kimi的K1.5和DeepSeek的R1,它們的核心方法驚人地一致:在Post-Training階段通過強(qiáng)化學(xué)習(xí)(RL)來提升模型的推理能力。這展現(xiàn)了國(guó)產(chǎn)模型在復(fù)現(xiàn)OpenAI等公司成果上的精巧和簡(jiǎn)潔。

        1. 早期猜想與局限性

        文章首先回顧了對(duì)OpenAI等公司Reasoning Model早期技術(shù)的猜想,主要集中在PRM(過程監(jiān)督獎(jiǎng)勵(lì)模型)和MCTS(蒙特卡洛樹搜索)方法。PRM通過分步驟打分來提供更精細(xì)的監(jiān)督信號(hào),MCTS則通過樹搜索來探索解空間。然而,PRM需要定義精細(xì)的執(zhí)行步驟,且對(duì)數(shù)據(jù)質(zhì)量要求高;MCTS則面臨搜索空間的問題,節(jié)點(diǎn)空間定義也十分困難。這些局限性導(dǎo)致實(shí)際復(fù)現(xiàn)中很少采用這些方法。

        2. 三篇核心工作的比較

        文章重點(diǎn)介紹了ReFT、K1.5和R1這三篇工作的核心思路。它們都采用了RL,但在具體實(shí)現(xiàn)上各有側(cè)重:

        2.1 ReFT: 簡(jiǎn)化PPO的RL方案

        ReFT采用PPO算法,但簡(jiǎn)化了Reward Model,使用Rule-Base RM(基于規(guī)則的獎(jiǎng)勵(lì)模型)來判斷答案正確性,并通過參數(shù)共享來降低Critic Model的計(jì)算復(fù)雜度。此外,ReFT還對(duì)比了兩種Self-Training方法,展現(xiàn)了RL方案的優(yōu)勢(shì)。

        2.2 Kimi K1.5: 精細(xì)化的RL和采樣策略

        Kimi K1.5在預(yù)訓(xùn)練和監(jiān)督微調(diào)后,采用了一種簡(jiǎn)化的類Policy Gradient方法進(jìn)行RL訓(xùn)練,避免了Critic Model的計(jì)算。其Reward Model設(shè)計(jì)精細(xì),針對(duì)不同問題和訓(xùn)練階段有不同的策略。此外,Kimi還采用了課程采樣和優(yōu)先采樣策略來提高訓(xùn)練效率。

        2.3 DeepSeek R1: 激進(jìn)的純RL與多階段優(yōu)化

        DeepSeek R1首先進(jìn)行了激進(jìn)的純RL實(shí)驗(yàn)(R1-Zero),但模型存在可讀性差等問題。因此,R1在R1-Zero基礎(chǔ)上,進(jìn)行了多階段優(yōu)化,包括SFT、RL、增強(qiáng)SFT和增強(qiáng)RL,最終提升了模型的通用性和推理能力。DeepSeek也使用了Rule-Based Reward Model,并增加了語(yǔ)言一致性獎(jiǎng)勵(lì)。

        3. 總結(jié)

        文章總結(jié)指出,這三篇工作都通過RL在Post-Training階段有效提升了模型的推理能力,展現(xiàn)了國(guó)產(chǎn)模型在Reasoning Model復(fù)現(xiàn)上的成就。其方法精巧簡(jiǎn)潔,通過清晰的目標(biāo)設(shè)定和對(duì)RL的巧妙運(yùn)用,實(shí)現(xiàn)了對(duì)復(fù)雜問題推理能力的有效提升。最終,文章以“Reasoning Model,RL is all you need”來概括其核心思想。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 日本免费精品一区二区三区| 久久精品九九亚洲精品| 免费日本黄色网址| 午夜男人一级毛片免费 | 亚洲1区1区3区4区产品乱码芒果| 无码欧精品亚洲日韩一区| 亚洲乱码中文字幕久久孕妇黑人| 亚洲精品无码久久久| 亚洲福利精品一区二区三区| 亚洲 综合 国产 欧洲 丝袜| 免费看国产曰批40分钟| 又爽又高潮的BB视频免费看| 无码欧精品亚洲日韩一区夜夜嗨 | 亚洲人AV永久一区二区三区久久| 国产91久久久久久久免费| 亚洲国产电影av在线网址| 亚洲第一视频在线观看免费| 国产亚洲欧洲Aⅴ综合一区| 久久亚洲2019中文字幕| 亚洲日韩精品一区二区三区| 情人伊人久久综合亚洲| 亚洲视频在线不卡| 亚洲激情视频图片| 无码亚洲成a人在线观看| 精品特级一级毛片免费观看| 一级特黄录像视频免费| 免费毛片在线看不用播放器 | 国产精品hd免费观看| 久久免费视频一区| 久久99精品国产免费观看| 九九精品免费视频| 四虎永久在线精品视频免费观看| 亚洲国产精品自在拍在线播放 | 91情侣在线精品国产免费| 最近最新中文字幕完整版免费高清| 国产成人免费高清在线观看| 亚洲精品国产高清嫩草影院 | 在线jlzzjlzz免费播放| 亚洲精品456播放| 亚洲成AV人在线观看天堂无码| 亚洲免费一级视频|