DeepSeek-R1論文速讀
原標題:比肩最新滿血版o1!DeepSeek-R1技術報告解讀
文章來源:智猩猩GenAI
內容字數:5671字
DeepSeek-R1:無需大量SFT數據即可媲美OpenAI的推理模型
本文解讀了Meta互聯網從業者撰寫的知乎文章,介紹了DeepSeek團隊最新開源的DeepSeek-R1系列模型。該模型在推理能力上取得了顯著突破,在多個高難度基準測試中表現優異,達到了與OpenAI-o1-1217和OpenAI-o1-mini相媲美的水平,成為第一梯隊推理模型。
1. DeepSeek-R1的核心創新:繞開SFT的強化學習
現有LLM推理模型普遍采用SFT(監督微調)+RL(強化學習)的方式,需要大量標注數據。DeepSeek-R1另辟蹊徑,通過巧妙的獎勵機制實現了在無需大量SFT數據的情況下,僅依靠大規模強化學習顯著提升模型推理能力。
2. DeepSeek-R1-Zero:無SFT的強化學習探索
DeepSeek-R1-Zero是DeepSeek-R1的先鋒版本,它直接從DeepSeek-V3-Base模型出發,采用DeepSeek獨有的GRPO和簡單的獎勵機制進行強化學習。獎勵機制包括準確性獎勵(基于答案匹配和代碼執行)和格式獎勵(檢查CoT過程格式)。盡管方法簡單,但DeepSeek-R1-Zero仍取得了接近OpenAI-o1-0912的性能,并展現出模型“進化”的現象,例如輸出長度增加,體現了模型自主思考能力的提升。
3. DeepSeek-R1:少量SFT數據冷啟動+強化學習
盡管DeepSeek-R1-Zero取得了成功,但其輸出可讀性差,存在語言混合等問題。DeepSeek-R1在此基礎上,加入了少量(數千量級)高質量CoT數據進行SFT冷啟動,并增加了語言一致性獎勵,進一步提升了模型性能和輸出質量。
DeepSeek-R1的訓練過程分四個階段:少量數據冷啟動SFT、針對推理場景的RL、拒絕采樣和SFT(包含推理數據和非推理數據)、適配所有場景的RL。通過這四個階段的訓練,DeepSeek-R1在保持高推理能力的同時,顯著提高了輸出的可讀性和語言一致性,最終效果與OpenAI-o1-1217不相上下。
4. 高效的模型蒸餾
DeepSeek團隊還發現,使用DeepSeek-R1的中間階段數據(“拒絕采樣和SFT”階段)對小模型進行SFT,無需RL,就能取得令人驚嘆的效果,這為低成本高效的模型部署提供了新的思路。
5. 未來改進方向
DeepSeek團隊也指出了DeepSeek-R1的一些不足之處,例如通用能力仍需提升,語言混合問題有待解決,對Prompt比較敏感等。未來,他們計劃改進模型的通用能力,解決語言混合問題,并提高其在軟件工程任務上的表現。
6. 未成功嘗試
文章還分享了DeepSeek團隊嘗試但未成功的方向,例如PRM(程序推理機制)和MCTS(蒙特卡洛樹搜索),并分析了這些方法未能成功的原因,體現了團隊的開放性和嚴謹的科研態度。
總而言之,DeepSeek-R1的成功為LLM的訓練和應用提供了新的思路,其高效的訓練方法和優異的性能,預示著LLM在推理領域將迎來新的發展。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。