Profiling Data

Profiling Data – DeepSeek開源訓練和推理框架的性能分析數據

Profiling Data是一個強大的性能分析工具，專為DeepSeek開源的訓練和推理框架設計，基于PyTorch Profiler捕獲的詳細程序運行數據。該工具能夠幫助開發者深入分析和優化軟件性能，從而提升整個系統的效率。

Profiling Data是什么

Profiling Data是DeepSeek開源訓練和推理框架的性能分析數據，利用PyTorch Profiler記錄程序運行過程中獲取的詳盡信息，旨在進行性能分析和優化。用戶可以直接在Chrome或Edge瀏覽器中通過?chrome://tracing?或?edge://tracing?打開下載的數據進行可視化分析。Profiling Data詳細記錄了程序執行過程中時間消耗、資源利用率及通信模式等關鍵指標。在深度學習框架中，Profiling Data能夠幫助開發者了解模型訓練和推理過程中的計算與通信重疊策略、不同硬件資源的使用情況以及潛在的性能瓶頸。通過對這些數據的深入分析，開發者可以優化代碼、調整并行策略，進而提高系統的整體效率。

Profiling Data

Profiling Data的主要功能

性能瓶頸發現：通過分析程序運行時的時間消耗和資源使用情況，幫助開發者快速識別性能瓶頸，例如哪些函數或模塊消耗了過多的時間和資源。
資源使用分析：評估CPU、GPU和內存等硬件資源的使用情況，協助優化資源分配，避免資源的浪費。
通信模式分析：在分布式系統中，分析節點間的通信模式和延遲，優化通信策略以降低通信開銷。
優化建議：為代碼優化提供數據支持，幫助開發者選擇合適的優化方案，例如并行化和緩存優化等。

Profiling Data的推理過程

預填充（Prefilling）：基于EP32和TP1（與DeepSeek V3/R1在線部署一致），提示長度設為4K，每個GPU的批量大小為16K個token。通過兩個微批次重疊計算與全連接通信，確保負載平衡。
解碼（Decoding）：基于EP128、TP1，提示長度為4K，每個GPU的批量大小為128個請求。解碼階段同樣使用兩個微批次進行計算和全連接通信，但與預填充不同的是，解碼階段的全連接通信不會占用GPU SMs（流式多處理器）。在RDMA（遠程直接內存訪問）消息發出后，所有GPU SMs均被釋放，系統計算完成后將等待全連接通信結束。