DeepSeek開(kāi)源第二天:拉爆MoE訓(xùn)練和推理

原標(biāo)題:DeepSeek開(kāi)源第二天:拉爆MoE訓(xùn)練和推理
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):5656字
DeepSeek開(kāi)源DeepEP:MoE模型訓(xùn)練推理性能利器
DeepSeek近日開(kāi)源了DeepEP,一個(gè)專(zhuān)為混合專(zhuān)家模型(MoE)訓(xùn)練和推理設(shè)計(jì)的通信庫(kù),旨在極致提升性能。DeepEP通過(guò)高效的All-to-All通信,在訓(xùn)練和推理場(chǎng)景下都實(shí)現(xiàn)了高吞吐和低延遲,堪稱(chēng)MoE模型的性能加速神器。
1. MoE與EP詳解
混合專(zhuān)家模型(MoE)通過(guò)將模型拆分成多個(gè)“專(zhuān)家”子網(wǎng)絡(luò),根據(jù)輸入數(shù)據(jù)選擇合適的專(zhuān)家進(jìn)行處理,從而提升計(jì)算效率。專(zhuān)家并行(EP)則是一種并行計(jì)算方式,將不同的專(zhuān)家分配到不同的GPU上,實(shí)現(xiàn)并行計(jì)算。MoE模型在推理時(shí),并非所有專(zhuān)家都參與計(jì)算,例如DeepSeek-R1模型,其671B參數(shù)量在推理時(shí)僅激活37B,256個(gè)專(zhuān)家中僅激活8個(gè)。這過(guò)程中,需要高效的通信機(jī)制來(lái)協(xié)調(diào)不同GPU上的專(zhuān)家協(xié)同工作。
2. DeepEP的核心優(yōu)勢(shì)
DeepEP的核心在于其高效的All-to-All通信機(jī)制,它利用NVLink和RDMA技術(shù),分別針對(duì)高吞吐和低延遲場(chǎng)景設(shè)計(jì)了兩種通信內(nèi)核:
- 高吞吐內(nèi)核:利用NVLink和RDMA的組合,實(shí)現(xiàn)極高的吞吐量(實(shí)測(cè)最高達(dá)153GB/s,接近NVLink理論極限160GB/s),適用于訓(xùn)練和快速處理文本等場(chǎng)景。
- 低延遲內(nèi)核:僅使用RDMA,將延遲降至微秒級(jí)(實(shí)測(cè)帶寬最高達(dá)46GB/s),適用于對(duì)延遲敏感的大模型解碼場(chǎng)景。
DeepEP還支持節(jié)點(diǎn)內(nèi)/跨節(jié)點(diǎn)通信,并提供SM數(shù)量控制接口,靈活分配GPU資源。此外,其集成的通信計(jì)算重疊機(jī)制,通過(guò)后臺(tái)并行接收數(shù)據(jù),不占用任何SM資源,最大化GPU利用率。
3. DeepEP的技術(shù)細(xì)節(jié)
DeepEP通過(guò)以下技術(shù)手段實(shí)現(xiàn)了卓越的性能:
- 通信計(jì)算重疊:利用hook機(jī)制實(shí)現(xiàn)通信和計(jì)算重疊,在不影響計(jì)算的情況下完成數(shù)據(jù)傳輸。
- SM資源優(yōu)化:DeepSeek在訓(xùn)練V3模型時(shí),將部分SM資源專(zhuān)門(mén)用于通信任務(wù),優(yōu)化資源利用。
- PTX指令挖掘:DeepEP發(fā)現(xiàn)了并使用了NVIDIA文檔中未記錄的PTX指令`ld.global.nc.L1::no_allocate.L2::256B`,進(jìn)一步提升性能(需注意其潛在的未定義行為)。
4. 總結(jié)
DeepEP作為首個(gè)用于MoE模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù),通過(guò)高效的通信機(jī)制和精細(xì)的資源管理,顯著提升了MoE模型的性能。其高吞吐和低延遲的特性,使其成為大規(guī)模MoE模型訓(xùn)練和推理的理想選擇。DeepEP的開(kāi)源,為MoE模型的進(jìn)一步發(fā)展提供了強(qiáng)有力的支持,也展現(xiàn)了DeepSeek在性能極致追求上的不懈努力。
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介:低負(fù)擔(dān)解碼AI世界,硬核也可愛(ài)!聚集35萬(wàn)AI發(fā)燒友、開(kāi)發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)