DeepSeek-V3推理系統(tǒng)分析

文章從模型架構(gòu)和推理系統(tǒng)兩個(gè)方面展開(kāi)，主要關(guān)注與推理有關(guān)的內(nèi)容。

原標(biāo)題：DeepSeek-V3推理系統(tǒng)分析
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：13895字

DeepSeek-V3推理系統(tǒng)深度解讀

本文對(duì)DeepSeek-V3推理系統(tǒng)進(jìn)行了深入分析，主要從模型架構(gòu)和推理系統(tǒng)兩個(gè)方面展開(kāi)，重點(diǎn)關(guān)注推理相關(guān)內(nèi)容。DeepSeek-V3是一個(gè)擁有671B參數(shù)的巨型語(yǔ)言模型，其推理系統(tǒng)的規(guī)模和復(fù)雜度都令人印象深刻。

1. 模型架構(gòu)

MLA (Multi-head Latent Attention): DeepSeek-V3采用MLA注意力機(jī)制，通過(guò)壓縮latent KV來(lái)減少KV Cache的內(nèi)存占用，從而容納更大的batch size。MLA相比MHA、GQA、MQA擁有更強(qiáng)的表達(dá)能力，并且通過(guò)矩陣吸收技術(shù)進(jìn)一步減少顯存占用和訪(fǎng)存量，尤其在解碼階段效果顯著。但矩陣吸收在預(yù)填充階段可能增加計(jì)算量，并且與張量并行（TP）的兼容性較差。
DeepSeek MoE: 采用細(xì)粒度專(zhuān)家（256個(gè)routed experts和top-8 routing），比V2版本更多，并使用sigmoid函數(shù)計(jì)算路由分?jǐn)?shù)，與傳統(tǒng)MoE模型有所不同。
MTP (Multi-Token Prediction): MTP模塊可以額外預(yù)測(cè)多個(gè)token，提升訓(xùn)練效果，在推理階段開(kāi)啟投機(jī)采樣可加速1.8倍。
模型架構(gòu)對(duì)推理系統(tǒng)的影響: MLA減小KV Cache，提升attention計(jì)算速度；MTP加速解碼；DeepSeek MoE的稀疏設(shè)計(jì)易造成資源浪費(fèi)，并對(duì)負(fù)載均衡提出挑戰(zhàn)。

2. 推理系統(tǒng)

計(jì)算集群： 使用NVIDIA H800 GPU，單節(jié)點(diǎn)8卡，節(jié)點(diǎn)內(nèi)NVLink互聯(lián)，節(jié)點(diǎn)間IB互聯(lián)。
PD分離： 將預(yù)填充(Prefilling)和解碼(Decoding)階段分開(kāi)部署，采用不同的并行策略。預(yù)填充階段最小單元為32卡，解碼階段最小單元為320卡，規(guī)模巨大。
并行策略： 采用數(shù)據(jù)并行(DP)、張量并行(TP)和專(zhuān)家并行(EP)。解碼階段DP規(guī)模高達(dá)80-way，充分利用全局batch size，提高每個(gè)expert處理的token數(shù)量。EP規(guī)模也極大，解碼階段每張卡只放置一個(gè)expert。
負(fù)載均衡： 預(yù)填充階段使用冗余專(zhuān)家和動(dòng)態(tài)冗余策略；解碼階段每張卡只持有1個(gè)專(zhuān)家，剩余GPU存放冗余專(zhuān)家和共享專(zhuān)家。共享專(zhuān)家被視為負(fù)載很大的routed expert，這增加了通信量，但通過(guò)巧妙的設(shè)計(jì)，可以使其與all-to-all通信重疊執(zhí)行，提高效率。
Pipeline： 使用2個(gè)microbatch的pipeline，將通信算子和memory-bound算子與計(jì)算密集型算子重疊執(zhí)行，最大化硬件利用率。解碼階段的pipeline設(shè)計(jì)尤為精巧，通過(guò)精細(xì)的SM分配，充分利用硬件資源。
推理系統(tǒng)總結(jié)： PD分離減少干擾；解碼實(shí)例超大規(guī)模利用超大聚合帶寬；Pipeline是高吞吐的關(guān)鍵；系統(tǒng)設(shè)計(jì)復(fù)雜，需要精細(xì)的profile和實(shí)驗(yàn)。

DeepSeek-V3的推理系統(tǒng)是一個(gè)高度優(yōu)化的復(fù)雜系統(tǒng)，其設(shè)計(jì)理念和技術(shù)細(xì)節(jié)都值得深入研究。通過(guò)PD分離、超大規(guī)模并行、Pipeline以及精細(xì)的負(fù)載均衡策略，DeepSeek-V3實(shí)現(xiàn)了高效的巨型語(yǔ)言模型推理。

聯(lián)系作者

文章來(lái)源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下賬號(hào)，專(zhuān)注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeek-V3推理系統(tǒng)# 低功耗AI推理 # 大規(guī)模預(yù)訓(xùn)練模型推理 # 實(shí)時(shí)AI推理加速 # 邊緣計(jì)算AI推理優(yōu)化

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

DeepSeek-V3推理系統(tǒng)分析

文章從模型架構(gòu)和推理系統(tǒng)兩個(gè)方面展開(kāi)，主要關(guān)注與推理有關(guān)的內(nèi)容。

DeepSeek-V3推理系統(tǒng)深度解讀

1. 模型架構(gòu)

2. 推理系統(tǒng)

聯(lián)系作者

AI大牛卡帕西盛贊DeepSeek！對(duì)著論文夸了半小時(shí)，稱(chēng)其思維能力“難以置信”

AI技術(shù)創(chuàng)新，DeepSeek之外的應(yīng)用側(cè)新敘事｜甲子光年

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)