DeepSeek-v3將算法與基礎設施融合,推動硬件架構創新。
原標題:談談DeepSeek-v3提到的基礎設施演進
文章來源:智猩猩GenAI
內容字數:5247字
第四屆全球自動駕駛峰會及DeepSeek-v3技術解讀
文章首先預告了1月14日在北京舉辦的第四屆全球自動駕駛峰會,并介紹了峰會的議程安排。隨后,作者以DeepSeek-v3為例,深入探討了算法與底層基礎設施緊密結合的重要性,以及當前大模型團隊在算法與基礎設施方面存在的割裂現象。
1. 算法與基礎設施的融合:DeepSeek-v3的成功案例
作者認為,DeepSeek團隊能夠成功融合算法和基礎設施,得益于團隊成員中擁有豐富的OI競賽經驗,具備深厚的計算優化能力和對處理器體系結構的深入理解。這與許多算法工程師代碼能力有限的現狀形成鮮明對比。作者還幽默地將量化訓練(Quantization)與“渣”(za)聯系起來,并強調算力不應僅僅是約束,而應成為可以聯合優化的變量。
2. 算力與算法協同發展的經驗
作者以阿里媽媽團隊在推薦系統中的經驗以及量化交易領域為例,進一步闡述了算力與算法協同發展的必要性。在高頻交易中,團隊甚至會采用家用CPU超頻等極端手段來提升運算速度,這體現了對算力極致追求的必要性。
3. 對Transformer架構及AGI的思考
作者表達了對當前Transformer架構的質疑,認為其依賴于大量算力的Scaling Law本質上存在錯誤,并非通往AGI的最終途徑。因此,作者更關注底層算力優化和頂層算法背后的數學原理,例如范疇論、代數拓撲和代數幾何等。
4. 底層算力優化和數學基礎研究
作者在底層算力方面,專注于GPU微架構分析、Tensor運算以及AI加速器高速互聯等;在數學方面,則致力于研究范疇論、代數拓撲和代數幾何在人工智能領域的應用,并提及了TOPOS視角下的多模態大模型和Grothendieck圖神經網絡等前沿研究。
5. 大模型的體系架構演進與類比
作者將大模型的token預測過程類比于CPU指令執行,并認為MoE和強化學習等技術實質上是在token預測上進行發散,類似于CPU的分支預測器。作者還提出,當前的GPU TensorCore/Cuda Core構成執行引擎,而Grothendieck圖神經網絡等代數結構可以作為模型的控制路徑,這可能是實現類圖靈完備大模型的一條途徑。
6. DeepSeek-v3的硬件優化策略及未來硬件需求
作者分析了DeepSeek-v3在H800被的情況下,如何通過避免TP并行以及對MoE的AlltoAll進行極致優化(例如PXN和IBGDA等)來提升效率。同時,作者也展望了未來硬件需求,例如通信協處理器以及統一ScaleOut和ScaleUp網絡的計算單元,并指出DeepSeek對未來硬件的演進方向與作者幾年前提出的NetDAM框架高度契合。
7. NetDAM框架的優勢與行業現狀
作者介紹了其在Cisco和第四范式期間參與開發的NetDAM框架,該框架能夠融合ScaleOut和ScaleUp通信,并支持多種通信原語,效率遠超RoCE。作者最后總結指出,雖然NetDAM框架在技術上具有顯著優勢,但由于各個廠商自身的戰略布局和利益考量,其應用和普及仍面臨挑戰。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。