原標題:DeepSeek測算:算力、性能、成本等
文章來源:人工智能學家
內容字數:25808字
DeepSeek:中國AI實驗室的崛起與全球影響
本文分析了SemiAnalysis報告中關于中國AI實驗室DeepSeek的深度解讀,涵蓋其成本、性能、人才策略以及對全球AI行業的影響。DeepSeek的迅速崛起,引發了全球范圍內的熱議,其日流量已超越眾多國際知名AI模型。
1. DeepSeek的背景與資源
DeepSeek由中國量化對沖基金幻方量化于2023年5月成立,初期融資完全由幻方提供。 報告估計,DeepSeek在GPU方面的投資已超過5億美元,擁有約50,000張英偉達Hopper架構GPU,其中包括約10,000張H800、10,000張H100以及大量H20 GPU。其總服務器資本支出約為13億美元,集群運營成本高達7.15億美元。
2. DeepSeek的人才戰略
DeepSeek注重實際能力,而非學歷背景,為頂尖研究人員提供超過130萬美元的年薪,吸引了大量中國本土人才。其靈活的組織架構和“隨意使用數萬張GPU”的招聘策略,極具吸引力。
3. DeepSeek的模型性能與成本
DeepSeek V3和R1模型的性能引發熱議。雖然DeepSeek V3的訓練成本被報道為約600萬美元,但報告指出這僅是預訓練成本,實際成本遠高于此,包括研發、數據處理、人才成本和硬件TCO等。DeepSeek R1的性能與OpenAI的o1相當,但報告強調,R1的論文并未公布所有基準測試結果,且Google的Gemini Flash 2.0 Thinking在某些方面表現更優,成本也更低。
4. DeepSeek的技術突破
DeepSeek在多項技術上取得突破,包括:
- 多Token預測(MTP):提升訓練效率。
- FP8訓練:提升計算資源利用率。
- 混合專家模型(MoE):提高訓練效率和降低推理成本。
- 強化學習(RL):提升R1的推理能力。
- 多頭潛在注意力(MLA):大幅降低推理成本。
5. DeepSeek的商業模式與市場影響
DeepSeek可能目前正在補貼推理價格以搶占市場份額,其低成本策略可能會影響整個AI行業的商業模式。 報告認為,DeepSeek的崛起并非完全顛覆OpenAI,而是以更低的價格實現了相當的能力,這類似于半導體行業中新技術節點的競爭格局。
6. 出口管制與DeepSeek的未來
美國的出口管制對DeepSeek的GPU獲取造成一定限制,但并未完全阻止其發展。 報告預測,未來出口管制可能會進一步收緊,DeepSeek的擴張能力將面臨挑戰。 中國對AI產業的大力扶持,將有助于DeepSeek未來的發展,但也可能導致其不再開源模型。
7. 總結
DeepSeek的崛起展現了中國AI領域的快速發展和巨大潛力。其低成本高性能的模型以及靈活的人才策略,對全球AI行業產生了重大影響。 然而,DeepSeek也面臨著來自出口管制和市場競爭的挑戰。未來的發展,仍充滿不確定性。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
相關文章
