計算DeepSeekV3訓練的MFU
原標題:計算DeepSeek V3訓練的MFU:相比V2提效61%!
文章來源:智猩猩GenAI
內容字數:5637字
DeepSeekV3模型訓練成本分析及第四屆全球自動駕駛峰會預告
本文主要圍繞DeepSeekV3模型的訓練成本及其在人工智能領域的巨大影響展開,并附帶第四屆全球自動駕駛峰會的預告信息。
1. DeepSeekV3模型的突破性進展
自2024年12月發布以來,DeepSeekV3模型在人工智能領域引發廣泛關注。其關鍵在于以低廉的成本(557萬美元)實現了SOTA水平的性能,引發了業界對AI模型訓練成本效益的重新思考。 該模型的成功,也使其成為中美科技博弈、中國創新實力等宏觀議題的討論焦點。
2. DeepSeekV3低訓練成本的秘訣
DeepSeekV3低訓練成本主要源于以下兩個方面:
- 模型架構設計:采用MoE結構,參數量達671B,但激活參數僅37B,有效降低了計算量。
- 高效的訓練框架:幻方自研的HAI-LLM框架,通過流水線并行、FP8量化、通信計算隱藏等工程優化技巧,極大地提升了訓練效率。
3. DeepSeekV3 MFU的計算與分析
本文的核心內容是對DeepSeekV3模型訓練期間MFU(Model FLOPs Utilization)的計算。MFU是衡量訓練框架運行效率的關鍵指標,但長期以來被忽視。作者通過公開數據,采用多種方法對MFU進行估算,最終得出MFU約為39%的結論。 這相比DeepSeekV2的MFU提升了約60%。該計算過程涉及到對模型參數、FLOPs計算公式以及GPU資源利用率等多方面的綜合考量,并考慮了不同計算方法帶來的誤差。
作者詳細解釋了計算MFU的步驟,包括:
- 參數說明:列出了模型的關鍵參數,例如維度、層數、專家數量等。
- FLOPs計算:分別計算了MLA、MoE和MLP等模塊的FLOPs,并考慮了前向和反向傳播。
- MFU計算公式:基于計算得到的FLOPs以及已知的GPU小時數,計算MFU。
- 結果對比:將DeepSeekV3與DeepSeekV2的MFU進行對比,量化了訓練效率的提升。
4. DeepSeekV3的影響與討論
DeepSeekV3的成功,不僅促進了對AI模型訓練成本效益的討論,也引發了關于美國對華技術出口管制政策有效性以及對英偉達股價影響的討論。其影響力已遠遠超出技術領域本身。
5. 第四屆全球自動駕駛峰會預告
最后,文章預告了將于1月14日在北京舉辦的第四屆全球自動駕駛峰會。峰會將涵蓋開幕式、多個專題論壇以及技術研討會,內容涉及端到端自動駕駛、城市NOA、自動駕駛視覺語言模型和自動駕駛世界模型等領域。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...