文章從模型架構和推理系統兩個方面展開,主要關注與推理有關的內容。
原標題:DeepSeek-V3推理系統分析
文章來源:智猩猩GenAI
內容字數:13895字
DeepSeek-V3推理系統深度解讀
本文對DeepSeek-V3推理系統進行了深入分析,主要從模型架構和推理系統兩個方面展開,重點關注推理相關內容。DeepSeek-V3是一個擁有671B參數的巨型語言模型,其推理系統的規模和復雜度都令人印象深刻。
1. 模型架構
- MLA (Multi-head Latent Attention): DeepSeek-V3采用MLA注意力機制,通過壓縮latent KV來減少KV Cache的內存占用,從而容納更大的batch size。MLA相比MHA、GQA、MQA擁有更強的表達能力,并且通過矩陣吸收技術進一步減少顯存占用和訪存量,尤其在解碼階段效果顯著。但矩陣吸收在預填充階段可能增加計算量,并且與張量并行(TP)的兼容性較差。
- DeepSeek MoE: 采用細粒度專家(256個routed experts和top-8 routing),比V2版本更多,并使用sigmoid函數計算路由分數,與傳統MoE模型有所不同。
- MTP (Multi-Token Prediction): MTP模塊可以額外預測多個token,提升訓練效果,在推理階段開啟投機采樣可加速1.8倍。
- 模型架構對推理系統的影響: MLA減小KV Cache,提升attention計算速度;MTP加速解碼;DeepSeek MoE的稀疏設計易造成資源浪費,并對負載均衡提出挑戰。
2. 推理系統
- 計算集群: 使用NVIDIA H800 GPU,單節點8卡,節點內NVLink互聯,節點間IB互聯。
- PD分離: 將預填充(Prefilling)和解碼(Decoding)階段分開部署,采用不同的并行策略。預填充階段最小單元為32卡,解碼階段最小單元為320卡,規模巨大。
- 并行策略: 采用數據并行(DP)、張量并行(TP)和專家并行(EP)。解碼階段DP規模高達80-way,充分利用全局batch size,提高每個expert處理的token數量。EP規模也極大,解碼階段每張卡只放置一個expert。
- 負載均衡: 預填充階段使用冗余專家和動態冗余策略;解碼階段每張卡只持有1個專家,剩余GPU存放冗余專家和共享專家。共享專家被視為負載很大的routed expert,這增加了通信量,但通過巧妙的設計,可以使其與all-to-all通信重疊執行,提高效率。
- Pipeline: 使用2個microbatch的pipeline,將通信算子和memory-bound算子與計算密集型算子重疊執行,最大化硬件利用率。解碼階段的pipeline設計尤為精巧,通過精細的SM分配,充分利用硬件資源。
- 推理系統總結: PD分離減少干擾;解碼實例超大規模利用超大聚合帶寬;Pipeline是高吞吐的關鍵;系統設計復雜,需要精細的profile和實驗。
DeepSeek-V3的推理系統是一個高度優化的復雜系統,其設計理念和技術細節都值得深入研究。通過PD分離、超大規模并行、Pipeline以及精細的負載均衡策略,DeepSeek-V3實現了高效的巨型語言模型推理。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...