關(guān)于DeepSeek V3訓(xùn)推優(yōu)化的剖析
DeepSeek V3訓(xùn)練推理優(yōu)化分析。
原標(biāo)題:關(guān)于DeepSeek V3訓(xùn)推優(yōu)化的剖析
文章來源:智猩猩GenAI
內(nèi)容字數(shù):3426字
大模型訓(xùn)練與推理加速策略深度解析
本文解讀知乎文章,分析一種新型大模型的訓(xùn)練和推理加速策略,并對其實現(xiàn)方法和潛在瓶頸進行探討。
1. 訓(xùn)練成本與加速策略
該模型在14.8T tokens的訓(xùn)練中,僅花費不到600萬美元,約為Llama 3.1 (15T+ tokens) 成本的十分之一。作者認為,簡單地追求十倍加速是不現(xiàn)實的,需要深入理解模型訓(xùn)練的計算瓶頸(MFU)。作者高度評價了該軟件公司在CUDA軟件和硬件方面的深厚功底,認為其在大模型基礎(chǔ)設(shè)施領(lǐng)域?qū)儆趪鴥?nèi)外頂尖水平。由于論文未披露訓(xùn)練MFU,難以精確評估優(yōu)化效果。作者通過計算舉例說明了如何根據(jù)已知數(shù)據(jù)估算MFU,并指出結(jié)果與預(yù)期存在偏差,需要讀者自行驗證。
2. MoE架構(gòu)的挑戰(zhàn)與優(yōu)化
作者指出MoE架構(gòu)相比于稠密模型,引入了All-to-All通信成本和專家均衡兩個新的挑戰(zhàn)。理解這兩個問題是理解MoE實現(xiàn)的關(guān)鍵。 文章對訓(xùn)練加速點進行了推測,樂觀估計FP8加速可提升訓(xùn)練速度接近一倍,32k序列長度可提升80%,但128k序列長度下attention計算占比會超過gemm,可能達到40%-50%。
3. 硬件與軟件協(xié)同優(yōu)化
文章分析了FP8混合精度帶來的加速和顯存節(jié)省,并探討了在H800上,由于量化、精度等因素,F(xiàn)P8加速并非簡單的兩倍。作者還提到了TP/PP/EP的調(diào)整,以及針對TP=1時容易出現(xiàn)的顯存溢出(OOM)問題,并分析了其原因。Dual-pipe調(diào)度策略可以減少約50%的bubble,但其效果依賴于單DP的batch size。All-to-All通信的overlap優(yōu)化效果取決于序列長度,在128k序列長度下,其優(yōu)化效果可能在10%-20%之間。文章還分析了跨節(jié)點通信優(yōu)化策略,指出實際帶寬與理論帶寬存在差距,并強調(diào)了可觀測性的重要性。Warp spec技術(shù)通過劃分SM資源來平衡計算和通信,但同時也減少了部分可用計算單元。
4. MoE Token Dispatch 均衡
文章簡要提及了通過調(diào)整dispatch輔助loss來實現(xiàn)MoE token dispatch均衡,從而提升訓(xùn)練速度,但并未進行詳細的量化分析。
5. 訓(xùn)練加速總結(jié)
綜合考慮FP8加速和其它優(yōu)化策略,作者估計總的訓(xùn)練加為一倍左右。作者強調(diào),單純追求成倍提升訓(xùn)練速度是不現(xiàn)實的,突破gemm/attention MFU才是關(guān)鍵。作者的策略是增大mb/seq,優(yōu)化gemm/attention計算占比,降低通信占比。
6. 推理加速策略
在推理方面,該模型相比于V2版本,吞吐量提升了3倍以上,MTP提升了1.8倍。文章指出,推理加速主要得益于MB pipeline編排實現(xiàn)All-to-All overlap,PD分離,以及預(yù)填充(prefill)架構(gòu)和解碼架構(gòu)的不同。 文章還重點介紹了其分布式推理架構(gòu),特別是解碼集群的設(shè)計,其中包含了冗余expert的設(shè)計,以應(yīng)對熱點expert問題和提高容錯能力。但是,文章也指出了集群容災(zāi)問題有待進一步解決。
7. 總結(jié)與展望
文章對該大模型的訓(xùn)練和推理加速策略進行了深入分析,并指出了其潛在的瓶頸和優(yōu)化方向。作者強調(diào)了可觀測性、硬件和軟件協(xié)同優(yōu)化以及對計算瓶頸的深刻理解的重要性。 文章信息基于對論文的理解和推測,期待更多業(yè)內(nèi)人士的討論和補充。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。