<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepEP

        AI工具3個月前更新 AI工具集
        833 0 0

        DeepEP – DeepSeek 開源的專家并行通信庫,專為 MoE 訓練和推理設計

        DeepEP 是 DeepSeek 開源的首個專為混合專家模型(MoE)訓練與推理設計的高效 EP(專家并行)通信庫。它提供高吞吐量和低延遲的全對全 GPU 內核,支持節點內和節點間的 NVLink 以及 RDMA 通信。DeepEP 針對 DeepSeek-V3 論文中的組限制門控算法進行了特別優化,支持 FP8 數據格式調度,并引入了基于 Hook 的通信-計算重疊技術,從而不占用 GPU 計算資源。在推理解碼階段,其低延遲內核表現卓越,延遲低至 163 微秒。DeepEP 適用于 Hopper GPU 架構,并要求 Python 3.8、CUDA 12.3 和 PyTorch 2.1 及以上版本。

        DeepEP是什么

        DeepEP 是 DeepSeek 開源的首個專為混合專家模型(MoE)訓練和推理設計的開源 EP(專家并行)通信庫。它提供了高吞吐量和低延遲的全對全 GPU 內核,支持節點內和節點間的 NVLink 和 RDMA 通信。DeepEP 針對 DeepSeek-V3 論文中的組限制門控算法進行了優化,支持 FP8 數據格式調度,并引入了基于 Hook 的通信-計算重疊方法,確保不占用 GPU 的計算資源。在推理解碼階段,其低延遲內核的性能表現出色,延遲低至 163 微秒。DeepEP 主要適用于 Hopper GPU 架構,需配備 Python 3.8、CUDA 12.3 和 PyTorch 2.1 及以上版本。

        DeepEP

        DeepEP的主要功能

        • 高效通信內核:DeepEP 提供高吞吐量和低延遲的全對全(all-to-all)GPU 內核,適用于 MoE 的分發(dispatch)和合并(combine)操作。
        • 低精度計算支持:支持 FP8 和 BF16 等低精度數據格式,顯著提升計算效率并降低內存需求。
        • 優化的通信機制:針對 DeepSeek-V3 論文中提出的組限制門控算法,DeepEP 提供了優化的內核,支持從 NVLink 到 RDMA 的非對稱帶寬轉發,適用于訓練和推理的預填充任務。
        • 低延遲推理解碼:提供純 RDMA 的低延遲內核,特別適合對延遲敏感的推理解碼場景,延遲低至 163 微秒。
        • 通信與計算重疊:引入基于 Hook 的通信-計算重疊方法,確保不占用 GPU 的流多處理器(SM)資源,從而最大化計算效率。
        • 靈活的資源管理:支持靈活的 GPU 資源管理,允許用戶控制 SM 的使用數量,以適應不同的工作負載。
        • 網絡配置優化:DeepEP 在 InfiniBand 網絡上經過全面測試,支持通過虛擬通道(VL)實現流量隔離,有效防止不同類型流量之間的干擾。

        DeepEP的項目地址

        DeepEP的性能表現

        • 高吞吐量內核:DeepEP 在 H800 GPU 和 CX7 InfiniBand 400 Gb/s RDMA 網絡卡上進行了測試,展現了卓越的吞吐量表現:
          • 內節點通信:使用 NVLink 的內節點通信中,分發和合并操作的瓶頸帶寬分別達到 153 GB/s158 GB/s
          • 跨節點通信:在使用 RDMA 的跨節點通信中,分發和合并操作的瓶頸帶寬分別達到 43-47 GB/s
        • 低延遲內核:DeepEP 的低延遲內核專為推理解碼設計,采用純 RDMA 技術,顯著降低延遲:
          • 在處理 8 個專家 時,分發操作的延遲為 163 微秒,合并操作的延遲為 318 微秒,RDMA 帶寬為 46 GB/s
          • 隨著專家數量增加,延遲略有上升,但在 256 個專家 時,分發和合并操作的延遲分別為 194 微秒360 微秒
        • 系統兼容性:DeepEP 主要與 InfiniBand 網絡兼容,也支持在收斂以太網(RoCE)上運行。要求使用 Hopper 架構的 GPU、Python 3.8 及以上版本、CUDA 12.3 及以上版本以及 PyTorch 2.1 及以上版本。

        DeepEP的系統要求

        • 硬件要求
          • 必須支持 Hopper 架構的 GPU(如 H100、H800),未來可能會支持更多架構。
          • 需要支持 GPUDirect RDMA 的設備,具體要求可參考 NVSHMEM 的硬件規格。
          • 節點內通信需使用 NVLink,節點間通信需使用 RDMA 網絡。
        • 軟件要求
          • 需要 Python 3.8 及以上版本。
          • 需安裝 CUDA 12.3 及以上版本。
          • 需安裝 PyTorch 2.1 及以上版本。
          • 需安裝修改版的 NVSHMEM,具體安裝指南可參考相關文檔。
          • 推薦安裝 GDRCopy(v2.4 及以上版本),用于低延遲 GPU 內存拷貝。
        • 網絡要求
          • 主要測試環境為 InfiniBand 網絡,兼容 RDMA over Converged Ethernet (RoCE)。
          • 支持通過虛擬通道(VL)進行流量隔離,以防止不同工作負載之間的干擾。
        • 其他要求
          • 在容器化環境中,需確保主機加載了必要的內核模塊(如 gdrdrv),并正確安裝相關 DEB 包。
          • 安裝完成后,需設置環境變量(如 NVSHMEM_DIR)以供 DeepEP 使用。

        DeepEP的應用場景

        • 大規模模型訓練:DeepEP 為混合專家模型(MoE)的訓練提供高效的并行通信支持,顯著提升訓練效率。
        • 推理任務:適合對延遲敏感的推理解碼場景,能顯著降低延遲,提高推理吞吐量。
        • 高性能計算:支持多種硬件平臺,包括 Hopper GPU 架構,優化了 NVLink 和 RDMA 網絡的通信性能。
        • 智能客服:通過優化推理過程,DeepSeek 的智能客服系統能夠快速響應用戶需求,提升服務效率。
        • 金融領域:可用于風險評估、自動化報告生成等,通過分析企業財報和輿情數據,預測違約概率。
        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 午夜在线a亚洲v天堂网2019| 亚洲综合偷自成人网第页色| 黄色a三级三级三级免费看| A级毛片内射免费视频| 亚洲免费在线观看视频| 99无码人妻一区二区三区免费| 久久亚洲AV成人出白浆无码国产| 日韩免费高清播放器| 亚洲AV无码一区二区二三区入口| 青柠影视在线观看免费高清| 亚洲AV中文无码字幕色三| 久久99精品免费视频| 亚洲精品一区二区三区四区乱码 | 亚洲国产成人高清在线观看| 久久免费视频一区| 亚洲AV无码1区2区久久| 0588影视手机免费看片| 亚洲an日韩专区在线| 日日夜夜精品免费视频| 一级一级一片免费高清| 亚洲色欲久久久综合网| 免费国产黄网站在线观看可以下载 | 18禁止看的免费污网站| 国产最新凸凹视频免费| 免费国产黄网站在线观看动图| 国产一区二区三区在线免费观看| sss日本免费完整版在线观看| 嫩草影院在线播放www免费观看| 亚洲五月六月丁香激情| 特级毛片全部免费播放a一级| 亚洲午夜日韩高清一区| 91精品免费高清在线| 亚洲日韩国产二区无码| 亚洲乱码国产一区网址| 日韩免费无码一区二区三区| 亚洲毛片基地4455ww| 亚洲一级特黄大片无码毛片| 67pao强力打造国产免费| 久久亚洲AV成人无码国产最大| 亚洲午夜久久久久久久久电影网| 亚洲三级在线免费观看|