SemiAnalysis萬字解析DeepSeek：訓(xùn)練成本、技術(shù)創(chuàng)新點(diǎn)、以及對封閉模型的影響

迄今為止海外對DeepSeek最全面的分析。

原標(biāo)題：SemiAnalysis萬字解析DeepSeek：訓(xùn)練成本、技術(shù)創(chuàng)新點(diǎn)、以及對封閉模型的影響
文章來源：Founder Park
內(nèi)容字?jǐn)?shù)：17819字

DeepSeek：顛覆性AI模型的全面解析

本文基于Semianalysis對DeepSeek的深度分析報(bào)告，以及其他可靠信息，客觀呈現(xiàn)DeepSeek的各項(xiàng)突破及其背后的故事，并對相關(guān)傳聞進(jìn)行理性解讀。

1. DeepSeek的驚人規(guī)模和資源投入

Semianalysis推測DeepSeek擁有約5萬塊Hopper GPU，總投資超過5億美元。廣為流傳的600萬美元訓(xùn)練成本，僅指V3模型的預(yù)訓(xùn)練階段GPU費(fèi)用，遠(yuǎn)非其總成本。DeepSeek團(tuán)隊(duì)約150人，主要來自北大、浙大等高校，年薪高達(dá)千萬級別。

2. 核心技術(shù)創(chuàng)新：MLA和V3模型

DeepSeek的多頭潛在注意力機(jī)制(MLA)是其大幅降低推理成本的關(guān)鍵，將每次查詢所需的KV緩存減少約93.3%。其V3模型是R1的基礎(chǔ)，在架構(gòu)上取得了諸多突破，包括多標(biāo)記預(yù)測(MTP)和高效的專家混合模型(MoE)。

3. R1模型與競爭對手的比較

R1模型在推理性能上與OpenAI的o1不相上下，但成本更低。雖然R1并未在技術(shù)上超越o1，甚至不如o3，但其低成本使其具有極強(qiáng)的競爭力。Google的Gemini Flash 2.0 Thinking在某些基準(zhǔn)測試中也表現(xiàn)出色，但并未獲得太多關(guān)注。

4. 低成本的誤讀與算法效率的提升

DeepSeek的低成本并非單純依靠硬件，而是源于算法的巨大進(jìn)步。算法效率每年提升4倍甚至10倍，使得用更少資源實(shí)現(xiàn)相同或更強(qiáng)性能成為可能。DeepSeek率先實(shí)現(xiàn)了這種成本和性能的結(jié)合。

5. DeepSeek的商業(yè)策略與未來展望

DeepSeek可能正以成本價甚至負(fù)利潤率提供推理服務(wù)，以搶占市場份額。這種策略能否持續(xù)，仍存在疑問。開源實(shí)驗(yàn)室的崛起，將極大地惠及云服務(wù)提供商和基礎(chǔ)設(shè)施供應(yīng)商，并可能導(dǎo)致計(jì)算資源價值的提升。

6. 出口管制的影響與中國的支持

美國的出口管制措施對DeepSeek的芯片獲取造成一定限制，但并未完全阻止其發(fā)展。中國對人工智能產(chǎn)業(yè)的大力支持，為DeepSeek提供了重要的發(fā)展機(jī)遇。未來DeepSeek是否會繼續(xù)開源其模型，仍有待觀察。

7. 總結(jié)

DeepSeek的出現(xiàn)，標(biāo)志著AI模型發(fā)展進(jìn)入一個新的階段。其低成本、高性能的模型，以及核心技術(shù)創(chuàng)新，對整個AI行業(yè)產(chǎn)生了深遠(yuǎn)的影響。雖然面臨著來自出口管制和市場競爭的挑戰(zhàn)，但DeepSeek憑借其技術(shù)實(shí)力和資源優(yōu)勢，仍有望在未來取得更大的突破。

聯(lián)系作者

文章來源：Founder Park
作者微信：
作者簡介：來自極客公園，專注與科技創(chuàng)業(yè)者聊「真問題」。

閱讀原文

# AIGC動態(tài)# AI模型閉源影響 # AI算力成本 # DeepSeek訓(xùn)練成本 # 大模型訓(xùn)練優(yōu)化 # 模型訓(xùn)練效率

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

SemiAnalysis萬字解析DeepSeek：訓(xùn)練成本、技術(shù)創(chuàng)新點(diǎn)、以及對封閉模型的影響

迄今為止海外對DeepSeek最全面的分析。

DeepSeek：顛覆性AI模型的全面解析

1. DeepSeek的驚人規(guī)模和資源投入

2. 核心技術(shù)創(chuàng)新：MLA和V3模型

3. R1模型與競爭對手的比較

4. 低成本的誤讀與算法效率的提升

5. DeepSeek的商業(yè)策略與未來展望

6. 出口管制的影響與中國的支持

7. 總結(jié)

聯(lián)系作者

部署滿血DeepSeek R1的避坑指南-vLLM 0.7.1

實(shí)測華為小藝版 DeepSeek，和滿血版 R1 有差別嗎？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？