DeepSeek 顛覆了什么？學習不靠“人盯”，AI自己“卷”自己

AIGC動態3個月前發布 AI前線

170 0 0

本文整理自 InfoQ 策劃的 DeepSeek 系列直播第二期節目——DeepSeek 爆火背后 DeepSeek，純強化學習路線到底有何不同。

原標題：DeepSeek 顛覆了什么？學習不靠“人盯”，AI自己“卷”自己
文章來源：AI前線
內容字數：18155字

DeepSeek：純強化學習路線的推理模型

本文總結了InfoQ DeepSeek系列直播第二期節目的要點，聚焦出門問問大模型團隊前工程副總李維博士對DeepSeek及其R1模型的解讀。李博士認為，DeepSeek通過開源和透明化，展示了純強化學習路線訓練推理模型的可行性，顛覆了業界傳統認知，也挑戰了OpenAI的觀點。

DeepSeek的突破與開源的意義
DeepSeek最大的貢獻在于將推理模型的強化學習訓練過程透明化。此前，OpenAI等頭部公司在推理大模型（如O1）的研發上諱莫如深，DeepSeek則將模型和技術論文全部開源，甚至公開思維鏈內容。這使得純強化學習路線，即僅通過結果控制而非過程監督，訓練出優秀推理模型成為可能，為業界提供了“平民化”的道路。
推理范式的創新：Zero研究
DeepSeek的R1論文的核心是Zero研究。Zero證明了無需過程監督，僅通過最終結果作為監督信號，就能訓練出具備“慢思考”（System 2）能力的推理模型。這借鑒了AlphaZero的思想，模型能夠自主生成內部過程數據（思維鏈，CoT），無需人工標注。通過設計簡單的模板（question+[think]+answer），引導模型自主填補[think]部分，生成CoT，并通過強化學習迭代，最終實現推理能力的提升。模型在強大的基座模型（如V3）基礎上生成數據，經過篩選和強化學習迭代，思維鏈會越來越條理化，最終導向正確答案。
避免模型“跑偏”及思維鏈機制
基于強大的基座模型，模型生成的思維鏈雖然不總是完美無缺，但不會偏離到完全不合理的情況。強化學習過程以結果為導向，即使思維鏈出現偏差，最終目標仍然一致。此外，DeepSeek的研究表明，再生數據在提升模型能力方面至關重要，尤其在數據匱乏的領域（如中文詩詞創作）。
DeepSeek的思維鏈機制是通過在question和answer之間加入[think]標簽，讓模型自主生成CoT。模型會在推理過程中進行反思和自我糾正，降低困惑度，提高得出正確結論的可能性。
R1的亮點：語言文字創作與風格模仿
R1的另一個顯著亮點是將推理思維鏈應用于語言文字創作和風格模仿。這不僅提升了模型在數學和代碼領域的性能，更使其在詩歌創作、文風模仿等方面展現出令人驚艷的能力，這擴大了推理模型的應用范圍，使其對普通用戶也具有吸引力。
值得復現的模塊及未來展望
李博士推薦程序員復現Zero研究相關的部分，這可以驗證模型自主學習反思能力的可能性，并啟發他們在自身領域應用類似技術。R1的四階段訓練（SFT+RL+SFT+RL）提供了最佳實踐，結合微調和強化學習，提升模型在特定領域的性能。DeepSeek的成功降低了大模型應用的門檻，加速了大模型向應用領域發展的速度。
李博士認為，AI編程的終極形態是程序員能用自然語言描述需求，AI直接輸出可部署的代碼和運維方案。未來，AI有望在腦力勞動和體力勞動中全面替代人類，這將帶來社會結構的巨大變革。