DeepSeek-V3推理系統(tǒng)分析
文章從模型架構(gòu)和推理系統(tǒng)兩個(gè)方面展開(kāi),主要關(guān)注與推理有關(guān)的內(nèi)容。
原標(biāo)題:DeepSeek-V3推理系統(tǒng)分析
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):13895字
DeepSeek-V3推理系統(tǒng)深度解讀
本文對(duì)DeepSeek-V3推理系統(tǒng)進(jìn)行了深入分析,主要從模型架構(gòu)和推理系統(tǒng)兩個(gè)方面展開(kāi),重點(diǎn)關(guān)注推理相關(guān)內(nèi)容。DeepSeek-V3是一個(gè)擁有671B參數(shù)的巨型語(yǔ)言模型,其推理系統(tǒng)的規(guī)模和復(fù)雜度都令人印象深刻。
1. 模型架構(gòu)
- MLA (Multi-head Latent Attention): DeepSeek-V3采用MLA注意力機(jī)制,通過(guò)壓縮latent KV來(lái)減少KV Cache的內(nèi)存占用,從而容納更大的batch size。MLA相比MHA、GQA、MQA擁有更強(qiáng)的表達(dá)能力,并且通過(guò)矩陣吸收技術(shù)進(jìn)一步減少顯存占用和訪(fǎng)存量,尤其在解碼階段效果顯著。但矩陣吸收在預(yù)填充階段可能增加計(jì)算量,并且與張量并行(TP)的兼容性較差。
- DeepSeek MoE: 采用細(xì)粒度專(zhuān)家(256個(gè)routed experts和top-8 routing),比V2版本更多,并使用sigmoid函數(shù)計(jì)算路由分?jǐn)?shù),與傳統(tǒng)MoE模型有所不同。
- MTP (Multi-Token Prediction): MTP模塊可以額外預(yù)測(cè)多個(gè)token,提升訓(xùn)練效果,在推理階段開(kāi)啟投機(jī)采樣可加速1.8倍。
- 模型架構(gòu)對(duì)推理系統(tǒng)的影響: MLA減小KV Cache,提升attention計(jì)算速度;MTP加速解碼;DeepSeek MoE的稀疏設(shè)計(jì)易造成資源浪費(fèi),并對(duì)負(fù)載均衡提出挑戰(zhàn)。
2. 推理系統(tǒng)
- 計(jì)算集群: 使用NVIDIA H800 GPU,單節(jié)點(diǎn)8卡,節(jié)點(diǎn)內(nèi)NVLink互聯(lián),節(jié)點(diǎn)間IB互聯(lián)。
- PD分離: 將預(yù)填充(Prefilling)和解碼(Decoding)階段分開(kāi)部署,采用不同的并行策略。預(yù)填充階段最小單元為32卡,解碼階段最小單元為320卡,規(guī)模巨大。
- 并行策略: 采用數(shù)據(jù)并行(DP)、張量并行(TP)和專(zhuān)家并行(EP)。解碼階段DP規(guī)模高達(dá)80-way,充分利用全局batch size,提高每個(gè)expert處理的token數(shù)量。EP規(guī)模也極大,解碼階段每張卡只放置一個(gè)expert。
- 負(fù)載均衡: 預(yù)填充階段使用冗余專(zhuān)家和動(dòng)態(tài)冗余策略;解碼階段每張卡只持有1個(gè)專(zhuān)家,剩余GPU存放冗余專(zhuān)家和共享專(zhuān)家。共享專(zhuān)家被視為負(fù)載很大的routed expert,這增加了通信量,但通過(guò)巧妙的設(shè)計(jì),可以使其與all-to-all通信重疊執(zhí)行,提高效率。
- Pipeline: 使用2個(gè)microbatch的pipeline,將通信算子和memory-bound算子與計(jì)算密集型算子重疊執(zhí)行,最大化硬件利用率。解碼階段的pipeline設(shè)計(jì)尤為精巧,通過(guò)精細(xì)的SM分配,充分利用硬件資源。
- 推理系統(tǒng)總結(jié): PD分離減少干擾;解碼實(shí)例超大規(guī)模利用超大聚合帶寬;Pipeline是高吞吐的關(guān)鍵;系統(tǒng)設(shè)計(jì)復(fù)雜,需要精細(xì)的profile和實(shí)驗(yàn)。
DeepSeek-V3的推理系統(tǒng)是一個(gè)高度優(yōu)化的復(fù)雜系統(tǒng),其設(shè)計(jì)理念和技術(shù)細(xì)節(jié)都值得深入研究。通過(guò)PD分離、超大規(guī)模并行、Pipeline以及精細(xì)的負(fù)載均衡策略,DeepSeek-V3實(shí)現(xiàn)了高效的巨型語(yǔ)言模型推理。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專(zhuān)注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。
# AIGC動(dòng)態(tài)# DeepSeek-V3推理系統(tǒng)# 低功耗AI推理# 大規(guī)模預(yù)訓(xùn)練模型推理# 實(shí)時(shí)AI推理加速# 邊緣計(jì)算AI推理優(yōu)化
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...