<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        關(guān)于DeepSeek V3訓(xùn)推優(yōu)化的剖析

        AIGC動態(tài)9個月前發(fā)布 智猩猩GenAI
        532 0 0

        DeepSeek V3訓(xùn)練推理優(yōu)化分析。

        關(guān)于DeepSeek V3訓(xùn)推優(yōu)化的剖析

        原標(biāo)題:關(guān)于DeepSeek V3訓(xùn)推優(yōu)化的剖析
        文章來源:智猩猩GenAI
        內(nèi)容字數(shù):3426字

        大模型訓(xùn)練與推理加速策略深度解析

        本文解讀知乎文章,分析一種新型大模型的訓(xùn)練和推理加速策略,并對其實現(xiàn)方法和潛在瓶頸進行探討。

        1. 訓(xùn)練成本與加速策略

        該模型在14.8T tokens的訓(xùn)練中,僅花費不到600萬美元,約為Llama 3.1 (15T+ tokens) 成本的十分之一。作者認為,簡單地追求十倍加速是不現(xiàn)實的,需要深入理解模型訓(xùn)練的計算瓶頸(MFU)。作者高度評價了該軟件公司在CUDA軟件和硬件方面的深厚功底,認為其在大模型基礎(chǔ)設(shè)施領(lǐng)域?qū)儆趪鴥?nèi)外頂尖水平。由于論文未披露訓(xùn)練MFU,難以精確評估優(yōu)化效果。作者通過計算舉例說明了如何根據(jù)已知數(shù)據(jù)估算MFU,并指出結(jié)果與預(yù)期存在偏差,需要讀者自行驗證。

        2. MoE架構(gòu)的挑戰(zhàn)與優(yōu)化

        作者指出MoE架構(gòu)相比于稠密模型,引入了All-to-All通信成本和專家均衡兩個新的挑戰(zhàn)。理解這兩個問題是理解MoE實現(xiàn)的關(guān)鍵。 文章對訓(xùn)練加速點進行了推測,樂觀估計FP8加速可提升訓(xùn)練速度接近一倍,32k序列長度可提升80%,但128k序列長度下attention計算占比會超過gemm,可能達到40%-50%。

        3. 硬件與軟件協(xié)同優(yōu)化

        文章分析了FP8混合精度帶來的加速和顯存節(jié)省,并探討了在H800上,由于量化、精度等因素,F(xiàn)P8加速并非簡單的兩倍。作者還提到了TP/PP/EP的調(diào)整,以及針對TP=1時容易出現(xiàn)的顯存溢出(OOM)問題,并分析了其原因。Dual-pipe調(diào)度策略可以減少約50%的bubble,但其效果依賴于單DP的batch size。All-to-All通信的overlap優(yōu)化效果取決于序列長度,在128k序列長度下,其優(yōu)化效果可能在10%-20%之間。文章還分析了跨節(jié)點通信優(yōu)化策略,指出實際帶寬與理論帶寬存在差距,并強調(diào)了可觀測性的重要性。Warp spec技術(shù)通過劃分SM資源來平衡計算和通信,但同時也減少了部分可用計算單元。

        4. MoE Token Dispatch 均衡

        文章簡要提及了通過調(diào)整dispatch輔助loss來實現(xiàn)MoE token dispatch均衡,從而提升訓(xùn)練速度,但并未進行詳細的量化分析。

        5. 訓(xùn)練加速總結(jié)

        綜合考慮FP8加速和其它優(yōu)化策略,作者估計總的訓(xùn)練加為一倍左右。作者強調(diào),單純追求成倍提升訓(xùn)練速度是不現(xiàn)實的,突破gemm/attention MFU才是關(guān)鍵。作者的策略是增大mb/seq,優(yōu)化gemm/attention計算占比,降低通信占比。

        6. 推理加速策略

        在推理方面,該模型相比于V2版本,吞吐量提升了3倍以上,MTP提升了1.8倍。文章指出,推理加速主要得益于MB pipeline編排實現(xiàn)All-to-All overlap,PD分離,以及預(yù)填充(prefill)架構(gòu)和解碼架構(gòu)的不同。 文章還重點介紹了其分布式推理架構(gòu),特別是解碼集群的設(shè)計,其中包含了冗余expert的設(shè)計,以應(yīng)對熱點expert問題和提高容錯能力。但是,文章也指出了集群容災(zāi)問題有待進一步解決。

        7. 總結(jié)與展望

        文章對該大模型的訓(xùn)練和推理加速策略進行了深入分析,并指出了其潛在的瓶頸和優(yōu)化方向。作者強調(diào)了可觀測性、硬件和軟件協(xié)同優(yōu)化以及對計算瓶頸的深刻理解的重要性。 文章信息基于對論文的理解和推測,期待更多業(yè)內(nèi)人士的討論和補充。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一级毛片在线观| 免费国产污网站在线观看| 亚洲一级免费视频| 亚洲AV日韩AV天堂久久| 国产精品美女久久久免费 | 亚洲日韩国产成网在线观看| 亚洲色欲色欱wwW在线| 最新免费jlzzjlzz在线播放| 扒开双腿猛进入爽爽免费视频| 亚洲乱码日产精品BD在线观看| 99亚洲乱人伦aⅴ精品| 在线观看成人免费| 亚洲变态另类一区二区三区| 免费观看午夜在线欧差毛片| 亚洲国产日韩一区高清在线| 国产精品亚洲av色欲三区| 精品国产免费观看| 免费一级毛suv好看的国产网站| 亚洲精品无码久久久| 亚洲欧洲春色校园另类小说| 国产精品免费视频观看拍拍| 国产av无码专区亚洲av桃花庵| 久久综合九色综合97免费下载| 亚洲国产精品xo在线观看| 日本免费v片一二三区| 亚洲日韩中文字幕天堂不卡| 午夜一级免费视频| jizz免费一区二区三区| 久久精品国产亚洲AV香蕉| 亚洲精品偷拍视频免费观看| 亚洲第一成年男人的天堂| 国产精品1024永久免费视频| 色偷偷亚洲男人天堂| 久久亚洲综合色一区二区三区| 亚洲国产精品免费在线观看| 国产精品亚洲精品日韩动图| 免费做爰猛烈吃奶摸视频在线观看| 亚洲Av无码精品色午夜| 国产无遮挡无码视频免费软件| 亚洲人成影院午夜网站| 亚洲高清无码在线观看|