模型層優化MoE之外,算力基礎設施也一起升級
原標題:剛剛,DeepSeek開源MoE訓練、推理EP通信庫DeepEP,真太Open了!
文章來源:機器之心
內容字數:3878字
DeepSeek開源周:高效MoE通信庫DeepEP震撼發布
上周五,DeepSeek宣布開啟為期一周的開源活動,計劃連續開源五個軟件庫。繼首個項目FlashMLA(一款用于Hopper GPU的高效MLA解碼核)獲得近8k星標后,DeepSeek于今日開源了第二個項目——DeepEP,一個專為混合專家模型(MoE)訓練和推理優化的通信庫,短短數小時內星標已破千。
1. DeepEP:高效MoE通信的利器
在分布式訓練環境中,尤其對于MoE模型,高效的數據傳遞至關重要。DeepEP旨在解決MoE模型中“專家并行”導致的負載不均衡問題,它通過以下幾個方面提升了效率:
- 高效優化的All-to-All通信。
- 支持NVLink和RDMA的節點內/跨節點通信。
- 訓練及推理預填充階段的高吞吐量計算核心。
- 推理解碼階段的低延遲計算核心。
- 原生支持FP8數據分發。
- 靈活控制GPU資源,實現計算與通信的高效重疊。
這些優化有效減少了數據傳輸瓶頸,提升了處理速度,并避免了計算和通信的互相等待。
2. DeepEP的性能與創新
DeepEP在Hopper架構的H800 GPU上進行了測試,分別測試了常規內核(使用NVLink和RDMA)和低延遲內核(純RDMA)。測試結果顯示,DeepEP在處理大規模MoE模型時,展現出顯著的性能提升。值得注意的是,DeepEP使用了未公開的PTX指令ld.global.nc.L1::no_allocate.L2::256B
,雖然存在未定義行為的風險,但在Hopper架構上測試有效,并大幅提升性能。用戶可在遇到兼容性問題時選擇禁用此指令。
3. 開源的意義與質疑的回應
DeepEP的開源,連同之前的FlashMLA,一定程度上回應了此前對DeepSeek技術的質疑。一些人曾質疑DeepSeek-R1的性能提升是通過模型蒸餾而非技術創新實現的,也有人質疑其低報了訓練所需的GPU數量。DeepEP的開源,以及其在MoE模型通信方面的顯著優化,為DeepSeek的技術實力提供了有力證明,體現了其在AI基礎設施方面的技術創新。
4. 未來展望
DeepSeek開源周仍在繼續,此次DeepEP的發布展現了其在MoE模型優化方面的深厚技術積累。文章結尾處,作者對DeepSeek接下來的開源項目進行了預告,并以“Real OPENAI has born!”作為結尾,表達了對DeepSeek未來發展的期待。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺