DeepSeek開源第二天：拉爆MoE訓練和推理

原標題：DeepSeek開源第二天：拉爆MoE訓練和推理
文章來源：夕小瑤科技說
內容字數：5656字

DeepSeek開源DeepEP：MoE模型訓練推理性能利器

DeepSeek近日開源了DeepEP，一個專為混合專家模型(MoE)訓練和推理設計的通信庫，旨在極致提升性能。DeepEP通過高效的All-to-All通信，在訓練和推理場景下都實現了高吞吐和低延遲，堪稱MoE模型的性能加速神器。

1. MoE與EP詳解

混合專家模型(MoE)通過將模型拆分成多個“專家”子網絡，根據輸入數據選擇合適的專家進行處理，從而提升計算效率。專家并行(EP)則是一種并行計算方式，將不同的專家分配到不同的GPU上，實現并行計算。MoE模型在推理時，并非所有專家都參與計算，例如DeepSeek-R1模型，其671B參數量在推理時僅激活37B，256個專家中僅激活8個。這過程中，需要高效的通信機制來協調不同GPU上的專家協同工作。

2. DeepEP的核心優勢

DeepEP的核心在于其高效的All-to-All通信機制，它利用NVLink和RDMA技術，分別針對高吞吐和低延遲場景設計了兩種通信內核：

高吞吐內核：利用NVLink和RDMA的組合，實現極高的吞吐量(實測最高達153GB/s，接近NVLink理論極限160GB/s)，適用于訓練和快速處理文本等場景。
低延遲內核：僅使用RDMA，將延遲降至微秒級(實測帶寬最高達46GB/s)，適用于對延遲敏感的大模型解碼場景。

DeepEP還支持節點內/跨節點通信，并提供SM數量控制接口，靈活分配GPU資源。此外，其集成的通信計算重疊機制，通過后臺并行接收數據，不占用任何SM資源，最大化GPU利用率。

3. DeepEP的技術細節

DeepEP通過以下技術手段實現了卓越的性能：

通信計算重疊：利用hook機制實現通信和計算重疊，在不影響計算的情況下完成數據傳輸。
SM資源優化：DeepSeek在訓練V3模型時，將部分SM資源專門用于通信任務，優化資源利用。
PTX指令挖掘：DeepEP發現了并使用了NVIDIA文檔中未記錄的PTX指令`ld.global.nc.L1::no_allocate.L2::256B`，進一步提升性能(需注意其潛在的未定義行為)。

4. 總結

DeepEP作為首個用于MoE模型訓練和推理的開源EP通信庫，通過高效的通信機制和精細的資源管理，顯著提升了MoE模型的性能。其高吞吐和低延遲的特性，使其成為大規模MoE模型訓練和推理的理想選擇。DeepEP的開源，為MoE模型的進一步發展提供了強有力的支持，也展現了DeepSeek在性能極致追求上的不懈努力。