原標題:DeepSeek開源第二天:拉爆MoE訓練和推理
文章來源:夕小瑤科技說
內容字數:5656字
DeepSeek開源DeepEP:MoE模型訓練推理性能利器
DeepSeek近日開源了DeepEP,一個專為混合專家模型(MoE)訓練和推理設計的通信庫,旨在極致提升性能。DeepEP通過高效的All-to-All通信,在訓練和推理場景下都實現了高吞吐和低延遲,堪稱MoE模型的性能加速神器。
1. MoE與EP詳解
混合專家模型(MoE)通過將模型拆分成多個“專家”子網絡,根據輸入數據選擇合適的專家進行處理,從而提升計算效率。專家并行(EP)則是一種并行計算方式,將不同的專家分配到不同的GPU上,實現并行計算。MoE模型在推理時,并非所有專家都參與計算,例如DeepSeek-R1模型,其671B參數量在推理時僅激活37B,256個專家中僅激活8個。這過程中,需要高效的通信機制來協調不同GPU上的專家協同工作。
2. DeepEP的核心優勢
DeepEP的核心在于其高效的All-to-All通信機制,它利用NVLink和RDMA技術,分別針對高吞吐和低延遲場景設計了兩種通信內核:
- 高吞吐內核:利用NVLink和RDMA的組合,實現極高的吞吐量(實測最高達153GB/s,接近NVLink理論極限160GB/s),適用于訓練和快速處理文本等場景。
- 低延遲內核:僅使用RDMA,將延遲降至微秒級(實測帶寬最高達46GB/s),適用于對延遲敏感的大模型解碼場景。
DeepEP還支持節點內/跨節點通信,并提供SM數量控制接口,靈活分配GPU資源。此外,其集成的通信計算重疊機制,通過后臺并行接收數據,不占用任何SM資源,最大化GPU利用率。
3. DeepEP的技術細節
DeepEP通過以下技術手段實現了卓越的性能:
- 通信計算重疊:利用hook機制實現通信和計算重疊,在不影響計算的情況下完成數據傳輸。
- SM資源優化:DeepSeek在訓練V3模型時,將部分SM資源專門用于通信任務,優化資源利用。
- PTX指令挖掘:DeepEP發現了并使用了NVIDIA文檔中未記錄的PTX指令`ld.global.nc.L1::no_allocate.L2::256B`,進一步提升性能(需注意其潛在的未定義行為)。
4. 總結
DeepEP作為首個用于MoE模型訓練和推理的開源EP通信庫,通過高效的通信機制和精細的資源管理,顯著提升了MoE模型的性能。其高吞吐和低延遲的特性,使其成為大規模MoE模型訓練和推理的理想選擇。DeepEP的開源,為MoE模型的進一步發展提供了強有力的支持,也展現了DeepSeek在性能極致追求上的不懈努力。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189