SemiAnalysis萬字解析DeepSeek:訓練成本、技術創新點、以及對封閉模型的影響
迄今為止海外對DeepSeek最全面的分析。
原標題:SemiAnalysis萬字解析DeepSeek:訓練成本、技術創新點、以及對封閉模型的影響
文章來源:Founder Park
內容字數:17819字
DeepSeek:顛覆性AI模型的全面解析
本文基于Semianalysis對DeepSeek的深度分析報告,以及其他可靠信息,客觀呈現DeepSeek的各項突破及其背后的故事,并對相關傳聞進行理性解讀。
1. DeepSeek的驚人規模和資源投入
Semianalysis推測DeepSeek擁有約5萬塊Hopper GPU,總投資超過5億美元。廣為流傳的600萬美元訓練成本,僅指V3模型的預訓練階段GPU費用,遠非其總成本。DeepSeek團隊約150人,主要來自北大、浙大等高校,年薪高達千萬級別。
2. 核心技術創新:MLA和V3模型
DeepSeek的多頭潛在注意力機制(MLA)是其大幅降低推理成本的關鍵,將每次查詢所需的KV緩存減少約93.3%。其V3模型是R1的基礎,在架構上取得了諸多突破,包括多標記預測(MTP)和高效的專家混合模型(MoE)。
3. R1模型與競爭對手的比較
R1模型在推理性能上與OpenAI的o1不相上下,但成本更低。雖然R1并未在技術上超越o1,甚至不如o3,但其低成本使其具有極強的競爭力。Google的Gemini Flash 2.0 Thinking在某些基準測試中也表現出色,但并未獲得太多關注。
4. 低成本的誤讀與算法效率的提升
DeepSeek的低成本并非單純依靠硬件,而是源于算法的巨大進步。算法效率每年提升4倍甚至10倍,使得用更少資源實現相同或更強性能成為可能。DeepSeek率先實現了這種成本和性能的結合。
5. DeepSeek的商業策略與未來展望
DeepSeek可能正以成本價甚至負利潤率提供推理服務,以搶占市場份額。這種策略能否持續,仍存在疑問。開源實驗室的崛起,將極大地惠及云服務提供商和基礎設施供應商,并可能導致計算資源價值的提升。
6. 出口管制的影響與中國的支持
美國的出口管制措施對DeepSeek的芯片獲取造成一定限制,但并未完全阻止其發展。中國對人工智能產業的大力支持,為DeepSeek提供了重要的發展機遇。未來DeepSeek是否會繼續開源其模型,仍有待觀察。
7. 總結
DeepSeek的出現,標志著AI模型發展進入一個新的階段。其低成本、高性能的模型,以及核心技術創新,對整個AI行業產生了深遠的影響。雖然面臨著來自出口管制和市場競爭的挑戰,但DeepSeek憑借其技術實力和資源優勢,仍有望在未來取得更大的突破。
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。