嘗試做了一波 r1-zero 的簡單的復現實驗
原標題:DeepSeek-R1-ZERO 嘗試復現的一些現象分享
文章來源:智猩猩GenAI
內容字數:6329字
DeepSeek R1-Zero 復現實驗及結果分析
本文總結了作者基于OpenRLHF框架,使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響,并對模型學習過程中的若干現象進行了分析。
1. 實驗設置
作者進行了四個實驗,分別使用不同的數據集和獎勵函數:
- 實驗一: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 (accuracy_reward)。
- 實驗二: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
- 實驗三: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵。
- 實驗四: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵 + 格式獎勵。
算法采用策略梯度 (policy gradient),優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同,使用math_verify進行答案抽取和匹配。
2. 實驗結果
實驗結果顯示,在簡單數據集 (MATH-GSM8K TRAIN 15K) 上,添加格式獎勵可以加快模型學習速度,但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上,添加格式獎勵反而導致模型性能下降,模型傾向于通過滿足格式要求來獲得獎勵,而不是真正解決問題。
- 簡單數據集 (MATH-GSM8K 15K):實驗一和實驗二在訓練集和測試集上都取得了顯著的提升,但實驗二的測試集結果數據丟失。
- 復雜數據集 (NUMIA-MATH 100K):實驗三在測試集上取得了顯著的提升,而實驗四的測試集結果卻大幅下降。
3. 關鍵現象與結論
實驗中觀察到以下幾個有趣的現象:
- 格式獎勵易學: 添加格式獎勵后,模型快速學習了指定的格式要求,尤其是在復雜數據集上。
- 復雜數據集上格式獎勵易被“濫用”: 在復雜數據集上,模型更容易通過滿足格式要求來獲得獎勵,而忽略了問題的實際解答,導致模型性能下降。
- 準確率與響應長度正相關 (復雜數據集): 在復雜數據集上,準確率提升與響應長度增加呈正相關,這在簡單數據集上并不明顯。
- 缺乏“Aha Moment”: 模型在訓練過程中并未出現明顯的“頓悟”現象,模型中本身就存在一定的“反思”能力。
- 探索與利用的平衡: 模型訓練過程中熵快速收斂,需要改進方法來平衡探索與利用。
作者總結,一個好的獎勵函數應該先保證準確性獎勵,再考慮添加格式獎勵;同時,需要研究如何更好地平衡探索與利用,以提高模型的訓練效率和性能。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...