原標題:DeepSeek核心論文全譯本:DeepSeek-R1:通過強化學習提升大語言模型 (LLM) 的推理能力
文章來源:人工智能學家
內容字數:35544字
DeepSeek: 提升大型語言模型推理能力的研究
本文介紹了DeepSeek的研究,旨在通過強化學習(RL)提升大型語言模型(LLM)的推理能力,并將其能力蒸餾到小型模型中。研究的核心在于探索LLM在無監督數據情況下自主發展推理能力的潛力。
1. 研究概述與貢獻
1.1 研究目標: 通過純RL方法提升LLM推理能力,并探索其自我演化過程。
1.2 主要貢獻:
- 后訓練大規模強化學習: 直接在基礎模型上應用RL,無需監督微調(SFT)作為初始步驟,成功開發DeepSeek-R1-Zero,展現了自我驗證、反思等高級推理行為。這是首次公開驗證通過純RL即可激勵LLM推理能力。
- 改進的訓練管道: 開發了DeepSeek-R1的訓練管道,包含兩個RL階段和兩個SFT階段,旨在發現改進的推理模式并與人類偏好對齊,提升模型性能和可讀性。
- 推理能力蒸餾: 成功將DeepSeek-R1的推理能力蒸餾到小型密集模型中,使小型模型性能優于直接在小模型上應用RL的結果,并開源了基于Qwen和Llama系列的多個蒸餾模型。
1.3 評估結果: DeepSeek-R1在多個基準測試中取得了優異成績,在部分任務上達到或超過了OpenAI o1系列模型的性能,尤其在數學和編程任務中表現突出。蒸餾后的小型模型也顯著超越了現有開源模型。
2. 方法
2.1 DeepSeek-R1-Zero: 基于基礎模型DeepSeek-V3-Base,使用GRPO強化學習框架,通過基于規則的獎勵系統(準確性獎勵和格式獎勵)進行訓練,展現了顯著的性能提升和自我演化過程,出現了“頓悟時刻”。 然而,存在可讀性和語言混雜等問題。
2.2 DeepSeek-R1: 在DeepSeek-R1-Zero的基礎上,引入了冷啟動數據進行微調,并采用多階段訓練管道:冷啟動微調、面向推理的強化學習、拒絕采樣與監督微調、面向所有場景的強化學習。該方法提升了模型的可讀性和性能,在多個基準測試中達到與OpenAI o1-1217相當的水平。
2.3 蒸餾: 將DeepSeek-R1的推理能力蒸餾到Qwen和Llama系列小型密集模型中,取得了優于直接在小模型上應用RL的結果。
3. 實驗結果
3.1 DeepSeek-R1評估: DeepSeek-R1在多個基準測試(包括MMLU,MATH-500,AIME 2024,Codeforces等)中表現出色,在部分任務上超過了DeepSeek-V3和其他基線模型。
3.2 蒸餾模型評估: 蒸餾后的小型模型在多個基準測試中表現優異,顯著優于現有開源模型,證明了蒸餾技術的有效性。
4. 討論與未來工作
4.1 蒸餾 vs. 強化學習: 實驗結果表明,蒸餾是一個高效且效果顯著的方法,而直接在小型模型上應用大規模RL訓練成本高且效果可能不如蒸餾。
4.2 失敗的嘗試: 研究中也嘗試了過程獎勵模型(PRM)和蒙特卡羅樹搜索(MCTS),但由于難以明確定義細粒度步驟、中間步驟正確性難以判斷以及獎勵黑客問題等原因,這些方法未能取得理想效果。
4.3 未來工作: 未來研究將關注提升DeepSeek-R1在通用能力、語言混雜問題、提示工程以及軟件工程任務方面的性能。
總而言之,DeepSeek研究通過創新性的RL方法和蒸餾技術,顯著提升了LLM的推理能力,為構建更強大和高效的LLM提供了新的方向。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構