從infra的視角聊聊DeepSeek-V3
從infra的視角分享一些個(gè)人看法
原標(biāo)題:從infra的視角聊聊DeepSeek-V3
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):5570字
DeepSeek-V3: 超大規(guī)模MoE模型訓(xùn)練與推理優(yōu)化
本文總結(jié)了Lin Zhang博士關(guān)于DeepSeek-V3大模型技術(shù)報(bào)告的Infra視角解讀。DeepSeek-V3在僅使用2000張H800和兩個(gè)月時(shí)間內(nèi),訓(xùn)練出一個(gè)671B參數(shù)的MoE模型,取得了顯著成果,展現(xiàn)了DeepSeek團(tuán)隊(duì)強(qiáng)大的算法和系統(tǒng)能力。
1. 模型結(jié)構(gòu):System-Algorithm Co-design
1.1 DeepSeek-V3沿用V2的MLA和MoE結(jié)構(gòu)。MLA通過(guò)類似LoRA的方式降低KV Cache/Token開(kāi)銷,但其優(yōu)勢(shì)尚未完全展現(xiàn),且增加了系統(tǒng)復(fù)雜度。
1.2 MoE結(jié)構(gòu)采用大量“小專家”,顯著提升模型稀疏性。V3擁有256個(gè)專家,總參數(shù)量達(dá)671B,但激活參數(shù)量?jī)H為37B,相比V2的236B總參數(shù)(21B激活參數(shù))更激進(jìn),且訓(xùn)練效率更高(每萬(wàn)億token的GPU小時(shí)數(shù)為180K,V2為172.8K)。
1.3 V3還采用了auxiliary-loss-free策略緩解專家負(fù)載不均衡,并引入了multi-token prediction (MTP)技術(shù),提升訓(xùn)練效果和推理效率。
2. 訓(xùn)練優(yōu)化:FP8混合精度訓(xùn)練
2.1 DeepSeek-V3是首個(gè)成功使用FP8混合精度訓(xùn)練的大規(guī)模MoE模型。為了克服FP8數(shù)值溢出風(fēng)險(xiǎn),V3采用細(xì)粒度的per-tile (1×128)和per-group (128×128)量化,降低量化誤差,并使用E4M3格式。
2.2 雖然per-tile和per-group量化對(duì)模型收斂至關(guān)重要,但報(bào)告未給出FP8矩陣乘法算子效率,也缺乏per-token和per-channel量化方法的討論。
2.3 V3使用BF16保存優(yōu)化器狀態(tài),并對(duì)部分操作進(jìn)行選擇性重計(jì)算,節(jié)省顯存,并采用64路專家并行、16路流水線并行和數(shù)據(jù)并行(ZeRO1)策略。
2.4 為了降低專家并行帶來(lái)的all2all通信開(kāi)銷,V3采用分組路由,限制每個(gè)token僅激活4個(gè)節(jié)點(diǎn)上的專家,并通過(guò)流水線化節(jié)點(diǎn)間和節(jié)點(diǎn)內(nèi)通信來(lái)最大化帶寬利用率,將通信計(jì)算比例控制在約1:1,為通信隱藏創(chuàng)造條件。
3. 推理優(yōu)化:PD分離與雙流推理
3.1 DeepSeek-V3采用PD分離的策略,分別優(yōu)化prefill和decode階段。Prefill階段采用4路張量并行+8路數(shù)據(jù)并行,最大化吞吐量;Decode階段采用320路專家并行,降低時(shí)延并緩解負(fù)載不均衡。
3.2 為了提高設(shè)備利用率,DeepSeek-V3采用NanoFlow的雙流推理策略,并發(fā)執(zhí)行不同micro-batch的計(jì)算和通信任務(wù)。
總而言之,DeepSeek-V3在模型結(jié)構(gòu)、訓(xùn)練優(yōu)化和推理優(yōu)化方面都進(jìn)行了大量的創(chuàng)新和優(yōu)化,實(shí)現(xiàn)了高效的超大規(guī)模MoE模型訓(xùn)練和部署,展現(xiàn)了其在算法和系統(tǒng)方面的領(lǐng)先技術(shù)實(shí)力。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。