從infra的視角聊聊DeepSeek-V3

從infra的視角分享一些個人看法

原標題：從infra的視角聊聊DeepSeek-V3
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：5570字

DeepSeek-V3: 超大規(guī)模MoE模型訓(xùn)練與推理優(yōu)化

本文總結(jié)了Lin Zhang博士關(guān)于DeepSeek-V3大模型技術(shù)報告的Infra視角解讀。DeepSeek-V3在僅使用2000張H800和兩個月時間內(nèi)，訓(xùn)練出一個671B參數(shù)的MoE模型，取得了顯著成果，展現(xiàn)了DeepSeek團隊強大的算法和系統(tǒng)能力。

1. 模型結(jié)構(gòu)：System-Algorithm Co-design

1.1 DeepSeek-V3沿用V2的MLA和MoE結(jié)構(gòu)。MLA通過類似LoRA的方式降低KV Cache/Token開銷，但其優(yōu)勢尚未完全展現(xiàn)，且增加了系統(tǒng)復(fù)雜度。

1.2 MoE結(jié)構(gòu)采用大量“小專家”，顯著提升模型稀疏性。V3擁有256個專家，總參數(shù)量達671B，但激活參數(shù)量僅為37B，相比V2的236B總參數(shù)（21B激活參數(shù)）更激進，且訓(xùn)練效率更高（每萬億token的GPU小時數(shù)為180K，V2為172.8K）。

1.3 V3還采用了auxiliary-loss-free策略緩解專家負載不均衡，并引入了multi-token prediction (MTP)技術(shù)，提升訓(xùn)練效果和推理效率。

2. 訓(xùn)練優(yōu)化：FP8混合精度訓(xùn)練

2.1 DeepSeek-V3是首個成功使用FP8混合精度訓(xùn)練的大規(guī)模MoE模型。為了克服FP8數(shù)值溢出風險，V3采用細粒度的per-tile (1×128)和per-group (128×128)量化，降低量化誤差，并使用E4M3格式。

2.2 雖然per-tile和per-group量化對模型收斂至關(guān)重要，但報告未給出FP8矩陣乘法算子效率，也缺乏per-token和per-channel量化方法的討論。

2.3 V3使用BF16保存優(yōu)化器狀態(tài)，并對部分操作進行選擇性重計算，節(jié)省顯存，并采用64路專家并行、16路流水線并行和數(shù)據(jù)并行（ZeRO1）策略。

2.4 為了降低專家并行帶來的all2all通信開銷，V3采用分組路由，限制每個token僅激活4個節(jié)點上的專家，并通過流水線化節(jié)點間和節(jié)點內(nèi)通信來最大化帶寬利用率，將通信計算比例控制在約1:1，為通信隱藏創(chuàng)造條件。

3. 推理優(yōu)化：PD分離與雙流推理

3.1 DeepSeek-V3采用PD分離的策略，分別優(yōu)化prefill和decode階段。Prefill階段采用4路張量并行+8路數(shù)據(jù)并行，最大化吞吐量；Decode階段采用320路專家并行，降低時延并緩解負載不均衡。

3.2 為了提高設(shè)備利用率，DeepSeek-V3采用NanoFlow的雙流推理策略，并發(fā)執(zhí)行不同micro-batch的計算和通信任務(wù)。

總而言之，DeepSeek-V3在模型結(jié)構(gòu)、訓(xùn)練優(yōu)化和推理優(yōu)化方面都進行了大量的創(chuàng)新和優(yōu)化，實現(xiàn)了高效的超大規(guī)模MoE模型訓(xùn)練和部署，展現(xiàn)了其在算法和系統(tǒng)方面的領(lǐng)先技術(shù)實力。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關(guān)注大模型與AI智能體，及時搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動態(tài)# 低功耗AI # 異構(gòu)計算加速 # 模型壓縮 # 深度學(xué)習(xí)推理優(yōu)化 # 邊緣AI加速

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

從infra的視角聊聊DeepSeek-V3

從infra的視角分享一些個人看法

DeepSeek-V3: 超大規(guī)模MoE模型訓(xùn)練與推理優(yōu)化

1. 模型結(jié)構(gòu)：System-Algorithm Co-design

2. 訓(xùn)練優(yōu)化：FP8混合精度訓(xùn)練

3. 推理優(yōu)化：PD分離與雙流推理

聯(lián)系作者

這些用AI偽造的苦難，正在剿殺人們的善意。

追不回的應(yīng)收款Ⅱ：怎么敢因為賬期太長就和客戶鬧僵呢｜甲子光年

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？