剛剛,DeepSeek開(kāi)源MoE訓(xùn)練、推理EP通信庫(kù)DeepEP,真太Open了!
模型層優(yōu)化MoE之外,算力基礎(chǔ)設(shè)施也一起升級(jí)
原標(biāo)題:剛剛,DeepSeek開(kāi)源MoE訓(xùn)練、推理EP通信庫(kù)DeepEP,真太Open了!
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3878字
DeepSeek開(kāi)源周:高效MoE通信庫(kù)DeepEP震撼發(fā)布
上周五,DeepSeek宣布開(kāi)啟為期一周的開(kāi)源活動(dòng),計(jì)劃連續(xù)開(kāi)源五個(gè)軟件庫(kù)。繼首個(gè)項(xiàng)目FlashMLA(一款用于Hopper GPU的高效MLA解碼核)獲得近8k星標(biāo)后,DeepSeek于今日開(kāi)源了第二個(gè)項(xiàng)目——DeepEP,一個(gè)專為混合專家模型(MoE)訓(xùn)練和推理優(yōu)化的通信庫(kù),短短數(shù)小時(shí)內(nèi)星標(biāo)已破千。
1. DeepEP:高效MoE通信的利器
在分布式訓(xùn)練環(huán)境中,尤其對(duì)于MoE模型,高效的數(shù)據(jù)傳遞至關(guān)重要。DeepEP旨在解決MoE模型中“專家并行”導(dǎo)致的負(fù)載不均衡問(wèn)題,它通過(guò)以下幾個(gè)方面提升了效率:
- 高效優(yōu)化的All-to-All通信。
- 支持NVLink和RDMA的節(jié)點(diǎn)內(nèi)/跨節(jié)點(diǎn)通信。
- 訓(xùn)練及推理預(yù)填充階段的高吞吐量計(jì)算核心。
- 推理解碼階段的低延遲計(jì)算核心。
- 原生支持FP8數(shù)據(jù)分發(fā)。
- 靈活控制GPU資源,實(shí)現(xiàn)計(jì)算與通信的高效重疊。
這些優(yōu)化有效減少了數(shù)據(jù)傳輸瓶頸,提升了處理速度,并避免了計(jì)算和通信的互相等待。
2. DeepEP的性能與創(chuàng)新
DeepEP在Hopper架構(gòu)的H800 GPU上進(jìn)行了測(cè)試,分別測(cè)試了常規(guī)內(nèi)核(使用NVLink和RDMA)和低延遲內(nèi)核(純RDMA)。測(cè)試結(jié)果顯示,DeepEP在處理大規(guī)模MoE模型時(shí),展現(xiàn)出顯著的性能提升。值得注意的是,DeepEP使用了未公開(kāi)的PTX指令ld.global.nc.L1::no_allocate.L2::256B
,雖然存在未定義行為的風(fēng)險(xiǎn),但在Hopper架構(gòu)上測(cè)試有效,并大幅提升性能。用戶可在遇到兼容性問(wèn)題時(shí)選擇禁用此指令。
3. 開(kāi)源的意義與質(zhì)疑的回應(yīng)
DeepEP的開(kāi)源,連同之前的FlashMLA,一定程度上回應(yīng)了此前對(duì)DeepSeek技術(shù)的質(zhì)疑。一些人曾質(zhì)疑DeepSeek-R1的性能提升是通過(guò)模型蒸餾而非技術(shù)創(chuàng)新實(shí)現(xiàn)的,也有人質(zhì)疑其低報(bào)了訓(xùn)練所需的GPU數(shù)量。DeepEP的開(kāi)源,以及其在MoE模型通信方面的顯著優(yōu)化,為DeepSeek的技術(shù)實(shí)力提供了有力證明,體現(xiàn)了其在AI基礎(chǔ)設(shè)施方面的技術(shù)創(chuàng)新。
4. 未來(lái)展望
DeepSeek開(kāi)源周仍在繼續(xù),此次DeepEP的發(fā)布展現(xiàn)了其在MoE模型優(yōu)化方面的深厚技術(shù)積累。文章結(jié)尾處,作者對(duì)DeepSeek接下來(lái)的開(kāi)源項(xiàng)目進(jìn)行了預(yù)告,并以“Real OPENAI has born!”作為結(jié)尾,表達(dá)了對(duì)DeepSeek未來(lái)發(fā)展的期待。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)