<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        AIGC動態7個月前發布 智猩猩GenAI
        722 0 0

        嘗試做了一波 r1-zero 的簡單的復現實驗

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        原標題:DeepSeek-R1-ZERO 嘗試復現的一些現象分享
        文章來源:智猩猩GenAI
        內容字數:6329字

        DeepSeek R1-Zero 復現實驗及結果分析

        本文總結了作者基于OpenRLHF框架,使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響,并對模型學習過程中的若干現象進行了分析。

        1. 實驗設置

        作者進行了四個實驗,分別使用不同的數據集和獎勵函數:

        1. 實驗一: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 (accuracy_reward)。
        2. 實驗二: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
        3. 實驗三: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵。
        4. 實驗四: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵 + 格式獎勵。

        算法采用策略梯度 (policy gradient),優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同,使用math_verify進行答案抽取和匹配。

        2. 實驗結果

        實驗結果顯示,在簡單數據集 (MATH-GSM8K TRAIN 15K) 上,添加格式獎勵可以加快模型學習速度,但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上,添加格式獎勵反而導致模型性能下降,模型傾向于通過滿足格式要求來獲得獎勵,而不是真正解決問題。

        1. 簡單數據集 (MATH-GSM8K 15K):實驗一和實驗二在訓練集和測試集上都取得了顯著的提升,但實驗二的測試集結果數據丟失。
        2. 復雜數據集 (NUMIA-MATH 100K):實驗三在測試集上取得了顯著的提升,而實驗四的測試集結果卻大幅下降。

        3. 關鍵現象與結論

        實驗中觀察到以下幾個有趣的現象:

        1. 格式獎勵易學: 添加格式獎勵后,模型快速學習了指定的格式要求,尤其是在復雜數據集上。
        2. 復雜數據集上格式獎勵易被“濫用”: 在復雜數據集上,模型更容易通過滿足格式要求來獲得獎勵,而忽略了問題的實際解答,導致模型性能下降。
        3. 準確率與響應長度正相關 (復雜數據集): 在復雜數據集上,準確率提升與響應長度增加呈正相關,這在簡單數據集上并不明顯。
        4. 缺乏“Aha Moment”: 模型在訓練過程中并未出現明顯的“頓悟”現象,模型中本身就存在一定的“反思”能力。
        5. 探索與利用的平衡: 模型訓練過程中熵快速收斂,需要改進方法來平衡探索與利用。

        作者總結,一個好的獎勵函數應該先保證準確性獎勵,再考慮添加格式獎勵;同時,需要研究如何更好地平衡探索與利用,以提高模型的訓練效率和性能。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人亚洲综合一区| 亚洲一区二区三区国产精品| 亚洲精品私拍国产福利在线| 国产日韩AV免费无码一区二区三区 | 中文字幕免费在线观看| 亚洲妇熟XXXX妇色黄| 搡女人免费免费视频观看| 在线亚洲97se亚洲综合在线| 久久精品成人免费国产片小草 | 亚洲黄片手机免费观看| 国产精品黄页免费高清在线观看 | 91精品国产亚洲爽啪在线影院| 99免费在线观看视频| 亚洲人6666成人观看| 午夜男人一级毛片免费| 色婷婷精品免费视频| 久久亚洲高清综合| 免费的全黄一级录像带| 亚洲国产成人久久精品app | 69成人免费视频无码专区| 麻豆亚洲AV成人无码久久精品| 亚洲一区无码精品色| 日韩成人免费视频| 亚洲一区二区三区91| 国内自产少妇自拍区免费| 一级特黄特色的免费大片视频| 亚洲精品无码av人在线观看| 麻豆高清免费国产一区| 亚洲欧洲日本在线观看| 亚洲精品NV久久久久久久久久| 久久免费看少妇高潮V片特黄| 亚洲伊人久久大香线蕉在观| 国产精品色午夜免费视频| 成人毛片100免费观看| 亚洲无圣光一区二区| 国产大片免费观看中文字幕| a级在线免费观看| 亚洲国产精品成人综合色在线| 亚洲色偷偷偷鲁综合| 中文字幕无码视频手机免费看| 老司机午夜精品视频在线观看免费|