「DeepSeek接班OpenAI」，最新開源的R1推理模型，讓AI圈爆了

原標題：「DeepSeek接班OpenAI」，最新開源的R1推理模型，讓AI圈爆了
文章來源：人工智能學家
內容字數：11080字

本文總結了DeepSeek公司最新發布的開源推理模型DeepSeek-R1的各項關鍵信息，該模型在數學、代碼和自然語言推理等領域的表現已達到與OpenAI的o1正式版相當的水平，引發了業界廣泛關注。

DeepSeek-R1采用多階段循環訓練策略，包括基礎訓練、強化學習(RL)和微調等多個階段。這種創新方法顯著提升了模型的推理能力，尤其在標注數據有限的情況下效果更佳。AutoAWQ作者Casper Hansen認為，多階段訓練是DeepSeek-R1性能提升的關鍵。

DeepSeek-R1在多個數據集上的表現與OpenAI的o1-1217、o1-mini以及DeepSeek-V3不相上下，甚至在某些任務上超越了現有模型。此外，DeepSeek還開源了六個不同參數規模的小模型(1.5B至70B)，進一步推動了AI技術的普及。

DeepSeek-R1不僅開源模型權重，還提供價格極具競爭力的API服務。與OpenAI相比，其API定價遠低于后者，這將吸引更多開發者和企業使用，推動AI技術的商業化應用。

DeepSeek-R1的核心在于創新性地應用強化學習。它摒棄了傳統的監督微調(SFT)冷啟動方式，直接通過大規模強化學習提升推理能力，降低了訓練成本并提高了模型的適應性和靈活性。例如，DeepSeek-R1-Zero采用群組相對策略優化(GRPO)提高訓練效率。

DeepSeek-R1采用準確度和格式兩種互補的獎勵機制，并設計了簡單的訓練模板，引導模型先給出推理過程再提供最終答案，這保證了模型輸出的規范性和正確性，也促進了模型自主發展高級解題策略。

DeepSeek-R1-Zero在訓練過程中展現出顯著的自我進化能力。例如，在處理2024年AIME數學奧賽試卷時，其平均pass@1分數從15.6%顯著提升到71.0%，甚至在多數投票機制下超過了OpenAI-o1-0912。

為了解決強化學習訓練早期的冷啟動問題，DeepSeek-R1使用了少量長CoT數據進行微調。盡管取得了顯著突破，但DeepSeek-R1-Zero仍存在回答可讀性差、語言混雜等問題，開發團隊正通過語言一致性獎勵、拒絕采樣和監督微調等方法解決這些問題。

DeepSeek團隊利用DeepSeek-R1整理的80萬個樣本對Qwen和Llama等開源模型進行微調，顯著提升了小模型的推理能力。

DeepSeek-R1的開源策略和高性價比，為AI行業樹立了新的標桿，未來有望在更多領域實現應用，推動AI技術發展。其開源精神和技術突破，為AI研究和商業化應用帶來了新的可能性。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...