強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

DeepSeek 正在通過其開源模型 DeepSeek-R1 革新 AI 產業，盡管資源有限，卻能媲美 OpenAI 的能力。通過讓前沿大模型更廣泛地開放，DeepSeek 推動了全球的創新與合作。

原標題：強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？
文章來源：智猩猩GenAI
內容字數：29933字

本文深入探討了DeepSeek及其開源推理模型DeepSeek-R1背后的關鍵強化學習(RL)后訓練技術，該技術顯著提升了大語言模型(LLM)的推理能力和對齊性，使其在實際應用中更加高效且易用。文章還對比了OpenAI的o系列模型的后訓練方法。

中國AI初創公司DeepSeek通過其開源模型DeepSeek-R1，革新了AI產業，挑戰了“先進AI研發必須依賴海量資金和計算資源”的傳統觀念。DeepSeek R1在計算資源遠少于OpenAI的o1模型的情況下，性能卻能與之媲美，這極大地推動了全球AI創新與合作。

與通用LLM相比，推理LLM需要更強的推理、規劃、對齊和魯棒性。DeepSeek R1等模型利用先進的預訓練技術提供強大的基線模型，并通過強化學習后訓練提升推理能力，例如使用鏈式思維(CoT)推理。

高質量的數據集對后訓練至關重要。DeepSeek R1使用人工策劃的數據集，以及通過生成模型和拒絕采樣(SR)方法生成的合成數據，其中包含了長鏈CoT推理軌跡，并通過蒸餾技術優化數據質量。

后訓練的核心是強化學習(RL)，包括監督微調(SFT)和策略模型的RL訓練。RL方法，如PPO、GRPO和DPO，通過獎勵模型引導模型學習，優化推理能力和對齊性。DeepSeek R1使用三種主要類型的獎勵：準確性獎勵、格式獎勵和語言一致性獎勵。

DeepSeek R1的后訓練包含三個RL迭代階段：首先是無SFT的R1-Zero階段，利用GRPO算法進行訓練；然后是基于SFT V3模型的推理導向RL訓練；最后是利用拒絕采樣引入通用能力，并進行最終RL訓練，以增強模型的有用性、無害性和推理能力。

OpenAI的o系列模型也使用了后訓練方法，通過SFT和RL階段，結合審慎對齊方法，直接集成安全相關的模型規范，并訓練模型在推理過程中仔細考慮這些規范，從而提升模型的安全性和對齊性。

DeepSeek R1-Zero的訓練展現了RL擴展法則，即隨著RL訓練時間的增加，模型性能穩步提升，并自發涌現出復雜的推理行為，如反思和探索替代方案。

DeepSeek R1及其方法挑戰了傳統AI研發模式，證明了高效的推理能力可以通過后訓練和RL技術實現，降低了AI技術的門檻，并推動了開源AI社區的發展。DeepSeek R1的開源策略雖然帶來了挑戰，但也為AI技術的化和全球AI合作做出了重要貢獻。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...