DeepSeek V3訓練推理優化分析。
原標題:關于DeepSeek V3訓推優化的剖析
文章來源:智猩猩GenAI
內容字數:3426字
大模型訓練與推理加速策略深度解析
本文解讀知乎文章,分析一種新型大模型的訓練和推理加速策略,并對其實現方法和潛在瓶頸進行探討。
1. 訓練成本與加速策略
該模型在14.8T tokens的訓練中,僅花費不到600萬美元,約為Llama 3.1 (15T+ tokens) 成本的十分之一。作者認為,簡單地追求十倍加速是不現實的,需要深入理解模型訓練的計算瓶頸(MFU)。作者高度評價了該軟件公司在CUDA軟件和硬件方面的深厚功底,認為其在大模型基礎設施領域屬于國內外頂尖水平。由于論文未披露訓練MFU,難以精確評估優化效果。作者通過計算舉例說明了如何根據已知數據估算MFU,并指出結果與預期存在偏差,需要讀者自行驗證。
2. MoE架構的挑戰與優化
作者指出MoE架構相比于稠密模型,引入了All-to-All通信成本和專家均衡兩個新的挑戰。理解這兩個問題是理解MoE實現的關鍵。 文章對訓練加速點進行了推測,樂觀估計FP8加速可提升訓練速度接近一倍,32k序列長度可提升80%,但128k序列長度下attention計算占比會超過gemm,可能達到40%-50%。
3. 硬件與軟件協同優化
文章分析了FP8混合精度帶來的加速和顯存節省,并探討了在H800上,由于量化、精度等因素,FP8加速并非簡單的兩倍。作者還提到了TP/PP/EP的調整,以及針對TP=1時容易出現的顯存溢出(OOM)問題,并分析了其原因。Dual-pipe調度策略可以減少約50%的bubble,但其效果依賴于單DP的batch size。All-to-All通信的overlap優化效果取決于序列長度,在128k序列長度下,其優化效果可能在10%-20%之間。文章還分析了跨節點通信優化策略,指出實際帶寬與理論帶寬存在差距,并強調了可觀測性的重要性。Warp spec技術通過劃分SM資源來平衡計算和通信,但同時也減少了部分可用計算單元。
4. MoE Token Dispatch 均衡
文章簡要提及了通過調整dispatch輔助loss來實現MoE token dispatch均衡,從而提升訓練速度,但并未進行詳細的量化分析。
5. 訓練加速總結
綜合考慮FP8加速和其它優化策略,作者估計總的訓練加為一倍左右。作者強調,單純追求成倍提升訓練速度是不現實的,突破gemm/attention MFU才是關鍵。作者的策略是增大mb/seq,優化gemm/attention計算占比,降低通信占比。
6. 推理加速策略
在推理方面,該模型相比于V2版本,吞吐量提升了3倍以上,MTP提升了1.8倍。文章指出,推理加速主要得益于MB pipeline編排實現All-to-All overlap,PD分離,以及預填充(prefill)架構和解碼架構的不同。 文章還重點介紹了其分布式推理架構,特別是解碼集群的設計,其中包含了冗余expert的設計,以應對熱點expert問題和提高容錯能力。但是,文章也指出了集群容災問題有待進一步解決。
7. 總結與展望
文章對該大模型的訓練和推理加速策略進行了深入分析,并指出了其潛在的瓶頸和優化方向。作者強調了可觀測性、硬件和軟件協同優化以及對計算瓶頸的深刻理解的重要性。 文章信息基于對論文的理解和推測,期待更多業內人士的討論和補充。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。