SemiAnalysis萬字解析DeepSeek:訓(xùn)練成本、技術(shù)創(chuàng)新點(diǎn)、以及對封閉模型的影響
迄今為止海外對DeepSeek最全面的分析。
原標(biāo)題:SemiAnalysis萬字解析DeepSeek:訓(xùn)練成本、技術(shù)創(chuàng)新點(diǎn)、以及對封閉模型的影響
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):17819字
DeepSeek:顛覆性AI模型的全面解析
本文基于Semianalysis對DeepSeek的深度分析報(bào)告,以及其他可靠信息,客觀呈現(xiàn)DeepSeek的各項(xiàng)突破及其背后的故事,并對相關(guān)傳聞進(jìn)行理性解讀。
1. DeepSeek的驚人規(guī)模和資源投入
Semianalysis推測DeepSeek擁有約5萬塊Hopper GPU,總投資超過5億美元。廣為流傳的600萬美元訓(xùn)練成本,僅指V3模型的預(yù)訓(xùn)練階段GPU費(fèi)用,遠(yuǎn)非其總成本。DeepSeek團(tuán)隊(duì)約150人,主要來自北大、浙大等高校,年薪高達(dá)千萬級別。
2. 核心技術(shù)創(chuàng)新:MLA和V3模型
DeepSeek的多頭潛在注意力機(jī)制(MLA)是其大幅降低推理成本的關(guān)鍵,將每次查詢所需的KV緩存減少約93.3%。其V3模型是R1的基礎(chǔ),在架構(gòu)上取得了諸多突破,包括多標(biāo)記預(yù)測(MTP)和高效的專家混合模型(MoE)。
3. R1模型與競爭對手的比較
R1模型在推理性能上與OpenAI的o1不相上下,但成本更低。雖然R1并未在技術(shù)上超越o1,甚至不如o3,但其低成本使其具有極強(qiáng)的競爭力。Google的Gemini Flash 2.0 Thinking在某些基準(zhǔn)測試中也表現(xiàn)出色,但并未獲得太多關(guān)注。
4. 低成本的誤讀與算法效率的提升
DeepSeek的低成本并非單純依靠硬件,而是源于算法的巨大進(jìn)步。算法效率每年提升4倍甚至10倍,使得用更少資源實(shí)現(xiàn)相同或更強(qiáng)性能成為可能。DeepSeek率先實(shí)現(xiàn)了這種成本和性能的結(jié)合。
5. DeepSeek的商業(yè)策略與未來展望
DeepSeek可能正以成本價甚至負(fù)利潤率提供推理服務(wù),以搶占市場份額。這種策略能否持續(xù),仍存在疑問。開源實(shí)驗(yàn)室的崛起,將極大地惠及云服務(wù)提供商和基礎(chǔ)設(shè)施供應(yīng)商,并可能導(dǎo)致計(jì)算資源價值的提升。
6. 出口管制的影響與中國的支持
美國的出口管制措施對DeepSeek的芯片獲取造成一定限制,但并未完全阻止其發(fā)展。中國對人工智能產(chǎn)業(yè)的大力支持,為DeepSeek提供了重要的發(fā)展機(jī)遇。未來DeepSeek是否會繼續(xù)開源其模型,仍有待觀察。
7. 總結(jié)
DeepSeek的出現(xiàn),標(biāo)志著AI模型發(fā)展進(jìn)入一個新的階段。其低成本、高性能的模型,以及核心技術(shù)創(chuàng)新,對整個AI行業(yè)產(chǎn)生了深遠(yuǎn)的影響。雖然面臨著來自出口管制和市場競爭的挑戰(zhàn),但DeepSeek憑借其技術(shù)實(shí)力和資源優(yōu)勢,仍有望在未來取得更大的突破。
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創(chuàng)業(yè)者聊「真問題」。