<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Deepseek R1 Zero成功復現全過程記錄

        AIGC動態3個月前發布 智猩猩GenAI
        307 0 0

        Deepseek真是越來越強了。

        Deepseek R1 Zero成功復現全過程記錄

        原標題:Deepseek R1 Zero成功復現全過程記錄
        文章來源:智猩猩GenAI
        內容字數:6393字

        基于規則的強化學習提升大型語言模型邏輯推理能力

        本文介紹了一個利用強化學習 (RL) 提升大型語言模型 (LLM) 邏輯推理能力的項目。該項目使用 Qwen 7B 作為基座模型,通過三階段的基于規則的強化學習,顯著提高了模型在邏輯推理任務上的準確率,并涌現出一些令人驚喜的能力。

        1. 項目成果

        該項目成功地將 Qwen 7B 模型在邏輯推理任務上的準確率從 0.2 提升至 0.41,超越了 GPT-4 (準確率約 0.3)。更重要的是,模型在 RL 訓練后涌現出了一些高級推理能力,例如:遲疑、多路徑探索、回溯、階段性總結以及答案驗證等。此外,模型的平均回復長度也增加了約 50%。

        2. 實驗設置

        該項目使用了不到 2000 條人工合成的訓練數據,這些數據類似于“老實人和騙子”類型的益智題。為了避免獎勵黑客行為,獎勵函數僅由格式獎勵和答案獎勵兩部分組成。基座模型選擇 Qwen 7B,放棄了最初選擇的 Qwen-math-7B,因為后者指令跟隨能力較弱,且輸出風格難以控制。RL 算法采用 Reinforce,訓練批次大小為 8。

        3. 三階段強化學習

        該項目采用三階段 RL 訓練策略:

        1. 階段一:課程學習與格式遵循:使用簡單邏輯題進行預訓練,重點學習 “ 和 “ 標簽的格式。此階段模型快速學習了格式,準確率也得到提升。
        2. 階段二:高溫采樣與大量 rollout:使用更復雜的邏輯題進行訓練,并采用高溫采樣 (溫度約 1.2) 和大 rollout 來增加模型輸出的多樣性,探索更豐富的推理策略。此階段模型出現了一些有趣的“崩壞”現象,例如試圖在輸出答案后重新進入思考階段,但被格式獎勵懲罰。
        3. 階段三:漫長的退火采樣:逐步降低采樣溫度,模型輸出逐漸成熟,具備了遲疑、回溯、總結和驗證等高級推理能力。此階段模型收斂速度較慢。

        4. 令人驚喜的發現

        該項目中,模型出現了一些意想不到的現象:模型有時會混合使用中文和英文進行思考,最終答案仍為英文;模型的回復長度顯著增加,平均長度提升了約 50%。這些現象暗示了模型在推理過程中可能使用了人類難以理解的策略。

        5. 未來工作

        研究者計劃進一步探索模型輸出中語言混合現象的原因,以及模型內部的推理機制。此外,他們還計劃將該模型應用于其他邏輯推理任務,例如 GSM8K。

        6. 總結

        該項目通過三階段基于規則的強化學習,成功地提升了 Qwen 7B 模型的邏輯推理能力,并涌現出了一些高級推理能力。該項目的研究結果為 LLM 的邏輯推理能力提升提供了新的思路和方法。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品日韩中文字幕久久久| 亚洲综合精品网站| 亚洲国产精品白丝在线观看| 精品免费视在线观看| 久久久久亚洲AV成人网人人网站| 日本免费精品一区二区三区| 亚洲人成综合在线播放| 91av免费观看| 亚洲喷奶水中文字幕电影| 国产91色综合久久免费| 亚洲av专区无码观看精品天堂| 亚洲日本在线免费观看| 亚洲youjizz| 日韩激情无码免费毛片| 久久精品国产亚洲AV| 免费国产一级特黄久久| 免费人成大片在线观看播放电影| 国产又粗又长又硬免费视频| 麻豆一区二区三区蜜桃免费| 国产亚洲精品看片在线观看| 日韩免费的视频在线观看香蕉| 亚洲精品视频在线观看视频| 成年人在线免费观看| 免费国产黄网站在线看| 日本亚洲欧洲免费天堂午夜看片女人员| 伊人免费在线观看| 亚洲老熟女@TubeumTV| 在线看片人成视频免费无遮挡| 阿v免费在线观看| 亚洲成AV人在线播放无码| 日本免费xxxx色视频| 亚洲第一se情网站| 亚洲AV无码乱码国产麻豆穿越 | 亚洲国产成人久久精品软件| 亚洲精品国产精品乱码不卞| 日本在线看片免费| 亚洲欧美日韩综合俺去了| 久久亚洲av无码精品浪潮| 99免费观看视频| 老司机免费午夜精品视频| 亚洲综合自拍成人|