DeepSeek 正在通過其開源模型 DeepSeek-R1 革新 AI 產業,盡管資源有限,卻能媲美 OpenAI 的能力。通過讓前沿大模型更廣泛地開放,DeepSeek 推動了全球的創新與合作。
原標題:強化學習與大模型后訓練:DeepSeek R1 如何獲得推理能力?
文章來源:智猩猩GenAI
內容字數:29933字
DeepSeek R1:基于強化學習的后訓練技術詳解
本文深入探討了DeepSeek及其開源推理模型DeepSeek-R1背后的關鍵強化學習(RL)后訓練技術,該技術顯著提升了大語言模型(LLM)的推理能力和對齊性,使其在實際應用中更加高效且易用。文章還對比了OpenAI的o系列模型的后訓練方法。
1. 引言:DeepSeek的開源革新
中國AI初創公司DeepSeek通過其開源模型DeepSeek-R1,革新了AI產業,挑戰了“先進AI研發必須依賴海量資金和計算資源”的傳統觀念。DeepSeek R1在計算資源遠少于OpenAI的o1模型的情況下,性能卻能與之媲美,這極大地推動了全球AI創新與合作。
2. 后訓練增強LLM推理與對齊能力
與通用LLM相比,推理LLM需要更強的推理、規劃、對齊和魯棒性。DeepSeek R1等模型利用先進的預訓練技術提供強大的基線模型,并通過強化學習后訓練提升推理能力,例如使用鏈式思維(CoT)推理。
3. 數據準備與生成
高質量的數據集對后訓練至關重要。DeepSeek R1使用人工策劃的數據集,以及通過生成模型和拒絕采樣(SR)方法生成的合成數據,其中包含了長鏈CoT推理軌跡,并通過蒸餾技術優化數據質量。
4. 強化學習與推理型LLM后訓練
后訓練的核心是強化學習(RL),包括監督微調(SFT)和策略模型的RL訓練。RL方法,如PPO、GRPO和DPO,通過獎勵模型引導模型學習,優化推理能力和對齊性。DeepSeek R1使用三種主要類型的獎勵:準確性獎勵、格式獎勵和語言一致性獎勵。
5. DeepSeek R1的后訓練流程
DeepSeek R1的后訓練包含三個RL迭代階段:首先是無SFT的R1-Zero階段,利用GRPO算法進行訓練;然后是基于SFT V3模型的推理導向RL訓練;最后是利用拒絕采樣引入通用能力,并進行最終RL訓練,以增強模型的有用性、無害性和推理能力。
6. OpenAI o系列模型的后訓練
OpenAI的o系列模型也使用了后訓練方法,通過SFT和RL階段,結合審慎對齊方法,直接集成安全相關的模型規范,并訓練模型在推理過程中仔細考慮這些規范,從而提升模型的安全性和對齊性。
7. RL擴展法則與LLM推理能力的涌現
DeepSeek R1-Zero的訓練展現了RL擴展法則,即隨著RL訓練時間的增加,模型性能穩步提升,并自發涌現出復雜的推理行為,如反思和探索替代方案。
8. 討論與結論
DeepSeek R1及其方法挑戰了傳統AI研發模式,證明了高效的推理能力可以通過后訓練和RL技術實現,降低了AI技術的門檻,并推動了開源AI社區的發展。DeepSeek R1的開源策略雖然帶來了挑戰,但也為AI技術的化和全球AI合作做出了重要貢獻。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。