從infra的視角聊聊DeepSeek-V3
從infra的視角分享一些個人看法
原標題:從infra的視角聊聊DeepSeek-V3
文章來源:智猩猩GenAI
內容字數(shù):5570字
DeepSeek-V3: 超大規(guī)模MoE模型訓練與推理優(yōu)化
本文總結了Lin Zhang博士關于DeepSeek-V3大模型技術報告的Infra視角解讀。DeepSeek-V3在僅使用2000張H800和兩個月時間內,訓練出一個671B參數(shù)的MoE模型,取得了顯著成果,展現(xiàn)了DeepSeek團隊強大的算法和系統(tǒng)能力。
1. 模型結構:System-Algorithm Co-design
1.1 DeepSeek-V3沿用V2的MLA和MoE結構。MLA通過類似LoRA的方式降低KV Cache/Token開銷,但其優(yōu)勢尚未完全展現(xiàn),且增加了系統(tǒng)復雜度。
1.2 MoE結構采用大量“小專家”,顯著提升模型稀疏性。V3擁有256個專家,總參數(shù)量達671B,但激活參數(shù)量僅為37B,相比V2的236B總參數(shù)(21B激活參數(shù))更激進,且訓練效率更高(每萬億token的GPU小時數(shù)為180K,V2為172.8K)。
1.3 V3還采用了auxiliary-loss-free策略緩解專家負載不均衡,并引入了multi-token prediction (MTP)技術,提升訓練效果和推理效率。
2. 訓練優(yōu)化:FP8混合精度訓練
2.1 DeepSeek-V3是首個成功使用FP8混合精度訓練的大規(guī)模MoE模型。為了克服FP8數(shù)值溢出風險,V3采用細粒度的per-tile (1×128)和per-group (128×128)量化,降低量化誤差,并使用E4M3格式。
2.2 雖然per-tile和per-group量化對模型收斂至關重要,但報告未給出FP8矩陣乘法算子效率,也缺乏per-token和per-channel量化方法的討論。
2.3 V3使用BF16保存優(yōu)化器狀態(tài),并對部分操作進行選擇性重計算,節(jié)省顯存,并采用64路專家并行、16路流水線并行和數(shù)據(jù)并行(ZeRO1)策略。
2.4 為了降低專家并行帶來的all2all通信開銷,V3采用分組路由,限制每個token僅激活4個節(jié)點上的專家,并通過流水線化節(jié)點間和節(jié)點內通信來最大化帶寬利用率,將通信計算比例控制在約1:1,為通信隱藏創(chuàng)造條件。
3. 推理優(yōu)化:PD分離與雙流推理
3.1 DeepSeek-V3采用PD分離的策略,分別優(yōu)化prefill和decode階段。Prefill階段采用4路張量并行+8路數(shù)據(jù)并行,最大化吞吐量;Decode階段采用320路專家并行,降低時延并緩解負載不均衡。
3.2 為了提高設備利用率,DeepSeek-V3采用NanoFlow的雙流推理策略,并發(fā)執(zhí)行不同micro-batch的計算和通信任務。
總而言之,DeepSeek-V3在模型結構、訓練優(yōu)化和推理優(yōu)化方面都進行了大量的創(chuàng)新和優(yōu)化,實現(xiàn)了高效的超大規(guī)模MoE模型訓練和部署,展現(xiàn)了其在算法和系統(tǒng)方面的領先技術實力。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。