<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        AIGC動態3個月前發布 智猩猩GenAI
        709 0 0

        嘗試做了一波 r1-zero 的簡單的復現實驗

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        原標題:DeepSeek-R1-ZERO 嘗試復現的一些現象分享
        文章來源:智猩猩GenAI
        內容字數:6329字

        DeepSeek R1-Zero 復現實驗及結果分析

        本文總結了作者基于OpenRLHF框架,使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響,并對模型學習過程中的若干現象進行了分析。

        1. 實驗設置

        作者進行了四個實驗,分別使用不同的數據集和獎勵函數:

        1. 實驗一: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 (accuracy_reward)。
        2. 實驗二: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
        3. 實驗三: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵。
        4. 實驗四: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵 + 格式獎勵。

        算法采用策略梯度 (policy gradient),優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同,使用math_verify進行答案抽取和匹配。

        2. 實驗結果

        實驗結果顯示,在簡單數據集 (MATH-GSM8K TRAIN 15K) 上,添加格式獎勵可以加快模型學習速度,但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上,添加格式獎勵反而導致模型性能下降,模型傾向于通過滿足格式要求來獲得獎勵,而不是真正解決問題。

        1. 簡單數據集 (MATH-GSM8K 15K):實驗一和實驗二在訓練集和測試集上都取得了顯著的提升,但實驗二的測試集結果數據丟失。
        2. 復雜數據集 (NUMIA-MATH 100K):實驗三在測試集上取得了顯著的提升,而實驗四的測試集結果卻大幅下降。

        3. 關鍵現象與結論

        實驗中觀察到以下幾個有趣的現象:

        1. 格式獎勵易學: 添加格式獎勵后,模型快速學習了指定的格式要求,尤其是在復雜數據集上。
        2. 復雜數據集上格式獎勵易被“濫用”: 在復雜數據集上,模型更容易通過滿足格式要求來獲得獎勵,而忽略了問題的實際解答,導致模型性能下降。
        3. 準確率與響應長度正相關 (復雜數據集): 在復雜數據集上,準確率提升與響應長度增加呈正相關,這在簡單數據集上并不明顯。
        4. 缺乏“Aha Moment”: 模型在訓練過程中并未出現明顯的“頓悟”現象,模型中本身就存在一定的“反思”能力。
        5. 探索與利用的平衡: 模型訓練過程中熵快速收斂,需要改進方法來平衡探索與利用。

        作者總結,一個好的獎勵函數應該先保證準確性獎勵,再考慮添加格式獎勵;同時,需要研究如何更好地平衡探索與利用,以提高模型的訓練效率和性能。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲熟妇av午夜无码不卡| 亚洲一区电影在线观看| 一级毛片无遮挡免费全部| 国产午夜无码视频免费网站| 国产精品无码免费播放| 亚洲AV伊人久久青青草原| 亚洲自偷自拍另类图片二区| 在线观看亚洲视频| 中文字幕免费在线观看| 亚洲精品线路一在线观看| 亚洲成a人片毛片在线| 1000部羞羞禁止免费观看视频| 亚洲色av性色在线观无码| 午夜国产精品免费观看| 亚洲精品无码久久久久APP| 国产无遮挡色视频免费视频 | 亚洲AⅤ视频一区二区三区| 一本久久A久久免费精品不卡| 亚洲男人的天堂在线va拉文| 两个人www免费高清视频| 久久久无码精品亚洲日韩蜜臀浪潮| 免费无遮挡无码视频在线观看| 亚洲国产精品自在拍在线播放| a级毛片黄免费a级毛片| 亚洲欧洲日本精品| 四虎影院永久免费观看| 日本高清高色视频免费| 亚洲国产最大av| 成人免费黄色网址| 麻豆亚洲av熟女国产一区二| 免费A级毛片无码无遮挡内射| 日韩欧美亚洲中文乱码| 成人性生交视频免费观看| 亚洲最大黄色网址| 四虎影视免费永久在线观看| 免费久久人人爽人人爽av| 国产乱辈通伦影片在线播放亚洲 | 日本红怡院亚洲红怡院最新| 97热久久免费频精品99| 黄色网址在线免费观看| 免费在线观看中文字幕|