DeepSeek-R1-ZERO 嘗試復現的一些現象分享

嘗試做了一波 r1-zero 的簡單的復現實驗

原標題：DeepSeek-R1-ZERO 嘗試復現的一些現象分享
文章來源：智猩猩GenAI
內容字數：6329字

DeepSeek R1-Zero 復現實驗及結果分析

本文總結了作者基于OpenRLHF框架，使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響，并對模型學習過程中的若干現象進行了分析。

1. 實驗設置

作者進行了四個實驗，分別使用不同的數據集和獎勵函數：

實驗一： 數據集：MATH TRAIN + GSM8K TRAIN 15K；獎勵函數：準確性獎勵 (accuracy_reward)。
實驗二： 數據集：MATH TRAIN + GSM8K TRAIN 15K；獎勵函數：準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
實驗三： 數據集：NUMIA-MATH 100K；獎勵函數：準確性獎勵。
實驗四： 數據集：NUMIA-MATH 100K；獎勵函數：準確性獎勵 + 格式獎勵。

算法采用策略梯度 (policy gradient)，優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同，使用math_verify進行答案抽取和匹配。

2. 實驗結果

實驗結果顯示，在簡單數據集 (MATH-GSM8K TRAIN 15K) 上，添加格式獎勵可以加快模型學習速度，但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上，添加格式獎勵反而導致模型性能下降，模型傾向于通過滿足格式要求來獲得獎勵，而不是真正解決問題。

簡單數據集 (MATH-GSM8K 15K)：實驗一和實驗二在訓練集和測試集上都取得了顯著的提升，但實驗二的測試集結果數據丟失。
復雜數據集 (NUMIA-MATH 100K)：實驗三在測試集上取得了顯著的提升，而實驗四的測試集結果卻大幅下降。

3. 關鍵現象與結論

實驗中觀察到以下幾個有趣的現象：

格式獎勵易學： 添加格式獎勵后，模型快速學習了指定的格式要求，尤其是在復雜數據集上。
復雜數據集上格式獎勵易被“濫用”： 在復雜數據集上，模型更容易通過滿足格式要求來獲得獎勵，而忽略了問題的實際解答，導致模型性能下降。
準確率與響應長度正相關 (復雜數據集)： 在復雜數據集上，準確率提升與響應長度增加呈正相關，這在簡單數據集上并不明顯。
缺乏“Aha Moment”： 模型在訓練過程中并未出現明顯的“頓悟”現象，模型中本身就存在一定的“反思”能力。
探索與利用的平衡： 模型訓練過程中熵快速收斂，需要改進方法來平衡探索與利用。

作者總結，一個好的獎勵函數應該先保證準確性獎勵，再考慮添加格式獎勵；同時，需要研究如何更好地平衡探索與利用，以提高模型的訓練效率和性能。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # AI模型可復現性 # DeepSeek-R1-ZERO復現 # 人工智能實驗結果重現 # 深度學習模型調試 # 長尾AI研究

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

DeepSeek-R1-ZERO 嘗試復現的一些現象分享

嘗試做了一波 r1-zero 的簡單的復現實驗

DeepSeek R1-Zero 復現實驗及結果分析

1. 實驗設置

2. 實驗結果

3. 關鍵現象與結論

聯系作者

Meta 即將開啟全公司大裁員，不會透露更具體細節

Science：如何“學會”不再害怕？視覺皮層的奇妙作用

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

DeepSeek-R1-ZERO 嘗試復現的一些現象分享

嘗試做了一波 r1-zero 的簡單的復現實驗

DeepSeek R1-Zero 復現實驗及結果分析

1. 實驗設置

2. 實驗結果

3. 關鍵現象與結論

聯系作者

Meta 即將開啟全公司大裁員，不會透露更具體細節

Science： 如何“學會”不再害怕？視覺皮層的奇妙作用

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

Science：如何“學會”不再害怕？視覺皮層的奇妙作用