<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從infra的視角聊聊DeepSeek-V3

        AIGC動態(tài)8個月前發(fā)布 智猩猩GenAI
        528 0 0

        從infra的視角分享一些個人看法

        從infra的視角聊聊DeepSeek-V3

        原標題:從infra的視角聊聊DeepSeek-V3
        文章來源:智猩猩GenAI
        內(nèi)容字數(shù):5570字

        DeepSeek-V3: 超大規(guī)模MoE模型訓(xùn)練與推理優(yōu)化

        本文總結(jié)了Lin Zhang博士關(guān)于DeepSeek-V3大模型技術(shù)報告的Infra視角解讀。DeepSeek-V3在僅使用2000張H800和兩個月時間內(nèi),訓(xùn)練出一個671B參數(shù)的MoE模型,取得了顯著成果,展現(xiàn)了DeepSeek團隊強大的算法和系統(tǒng)能力。

        1. 模型結(jié)構(gòu):System-Algorithm Co-design

        1.1 DeepSeek-V3沿用V2的MLA和MoE結(jié)構(gòu)。MLA通過類似LoRA的方式降低KV Cache/Token開銷,但其優(yōu)勢尚未完全展現(xiàn),且增加了系統(tǒng)復(fù)雜度。

        1.2 MoE結(jié)構(gòu)采用大量“小專家”,顯著提升模型稀疏性。V3擁有256個專家,總參數(shù)量達671B,但激活參數(shù)量僅為37B,相比V2的236B總參數(shù)(21B激活參數(shù))更激進,且訓(xùn)練效率更高(每萬億token的GPU小時數(shù)為180K,V2為172.8K)。

        1.3 V3還采用了auxiliary-loss-free策略緩解專家負載不均衡,并引入了multi-token prediction (MTP)技術(shù),提升訓(xùn)練效果和推理效率。

        2. 訓(xùn)練優(yōu)化:FP8混合精度訓(xùn)練

        2.1 DeepSeek-V3是首個成功使用FP8混合精度訓(xùn)練的大規(guī)模MoE模型。為了克服FP8數(shù)值溢出風險,V3采用細粒度的per-tile (1×128)和per-group (128×128)量化,降低量化誤差,并使用E4M3格式。

        2.2 雖然per-tile和per-group量化對模型收斂至關(guān)重要,但報告未給出FP8矩陣乘法算子效率,也缺乏per-token和per-channel量化方法的討論。

        2.3 V3使用BF16保存優(yōu)化器狀態(tài),并對部分操作進行選擇性重計算,節(jié)省顯存,并采用64路專家并行、16路流水線并行和數(shù)據(jù)并行(ZeRO1)策略。

        2.4 為了降低專家并行帶來的all2all通信開銷,V3采用分組路由,限制每個token僅激活4個節(jié)點上的專家,并通過流水線化節(jié)點間和節(jié)點內(nèi)通信來最大化帶寬利用率,將通信計算比例控制在約1:1,為通信隱藏創(chuàng)造條件。

        3. 推理優(yōu)化:PD分離與雙流推理

        3.1 DeepSeek-V3采用PD分離的策略,分別優(yōu)化prefill和decode階段。Prefill階段采用4路張量并行+8路數(shù)據(jù)并行,最大化吞吐量;Decode階段采用320路專家并行,降低時延并緩解負載不均衡。

        3.2 為了提高設(shè)備利用率,DeepSeek-V3采用NanoFlow的雙流推理策略,并發(fā)執(zhí)行不同micro-batch的計算和通信任務(wù)。

        總而言之,DeepSeek-V3在模型結(jié)構(gòu)、訓(xùn)練優(yōu)化和推理優(yōu)化方面都進行了大量的創(chuàng)新和優(yōu)化,實現(xiàn)了高效的超大規(guī)模MoE模型訓(xùn)練和部署,展現(xiàn)了其在算法和系統(tǒng)方面的領(lǐng)先技術(shù)實力。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: v片免费在线观看| 亚洲高清在线视频| 最近的中文字幕大全免费8| 污污网站18禁在线永久免费观看| 最近中文字幕mv免费高清视频8 | 免费观看美女裸体网站| 免费a在线观看播放| 亚洲av无码专区国产乱码在线观看| 中中文字幕亚洲无线码| 国产精品免费久久| 国产亚洲日韩在线三区| 亚洲制服丝袜中文字幕| 亚洲精品动漫免费二区| 亚洲成色在线综合网站| 美女裸免费观看网站| 久久精品国产免费观看三人同眠| 亚洲成网777777国产精品| 亚洲av一本岛在线播放| 三级网站在线免费观看| 国产免费私拍一区二区三区| 亚洲国产成a人v在线观看| 在线免费观看色片| 亚洲性一级理论片在线观看| 免费黄网站在线看| 亚洲视频人成在线播放| 大桥未久亚洲无av码在线| 国产免费毛不卡片| 国产亚洲视频在线观看| 国产精品自在自线免费观看| 国产人成亚洲第一网站在线播放| 久久精品一本到99热免费| 亚洲色精品三区二区一区| 国产1024精品视频专区免费| 久久亚洲AV成人无码国产电影 | 久久国产亚洲精品无码| 人人揉揉香蕉大免费不卡| 免费无码一区二区| 国产成人精品亚洲日本在线| 青青久在线视频免费观看| www.999精品视频观看免费| 在线综合亚洲中文精品|