談談DeepSeek-v3提到的基礎設施演進

DeepSeek-v3將算法與基礎設施融合，推動硬件架構創新。

原標題：談談DeepSeek-v3提到的基礎設施演進
文章來源：智猩猩GenAI
內容字數：5247字

第四屆全球自動駕駛峰會及DeepSeek-v3技術解讀

文章首先預告了1月14日在北京舉辦的第四屆全球自動駕駛峰會，并介紹了峰會的議程安排。隨后，作者以DeepSeek-v3為例，深入探討了算法與底層基礎設施緊密結合的重要性，以及當前大模型團隊在算法與基礎設施方面存在的割裂現象。

1. 算法與基礎設施的融合：DeepSeek-v3的成功案例

作者認為，DeepSeek團隊能夠成功融合算法和基礎設施，得益于團隊成員中擁有豐富的OI競賽經驗，具備深厚的計算優化能力和對處理器體系結構的深入理解。這與許多算法工程師代碼能力有限的現狀形成鮮明對比。作者還幽默地將量化訓練（Quantization）與“渣”（za）聯系起來，并強調算力不應僅僅是約束，而應成為可以聯合優化的變量。

2. 算力與算法協同發展的經驗

作者以阿里媽媽團隊在推薦系統中的經驗以及量化交易領域為例，進一步闡述了算力與算法協同發展的必要性。在高頻交易中，團隊甚至會采用家用CPU超頻等極端手段來提升運算速度，這體現了對算力極致追求的必要性。

3. 對Transformer架構及AGI的思考

作者表達了對當前Transformer架構的質疑，認為其依賴于大量算力的Scaling Law本質上存在錯誤，并非通往AGI的最終途徑。因此，作者更關注底層算力優化和頂層算法背后的數學原理，例如范疇論、代數拓撲和代數幾何等。

4. 底層算力優化和數學基礎研究

作者在底層算力方面，專注于GPU微架構分析、Tensor運算以及AI加速器高速互聯等；在數學方面，則致力于研究范疇論、代數拓撲和代數幾何在人工智能領域的應用，并提及了TOPOS視角下的多模態大模型和Grothendieck圖神經網絡等前沿研究。

5. 大模型的體系架構演進與類比

作者將大模型的token預測過程類比于CPU指令執行，并認為MoE和強化學習等技術實質上是在token預測上進行發散，類似于CPU的分支預測器。作者還提出，當前的GPU TensorCore/Cuda Core構成執行引擎，而Grothendieck圖神經網絡等代數結構可以作為模型的控制路徑，這可能是實現類圖靈完備大模型的一條途徑。

6. DeepSeek-v3的硬件優化策略及未來硬件需求

作者分析了DeepSeek-v3在H800被的情況下，如何通過避免TP并行以及對MoE的AlltoAll進行極致優化（例如PXN和IBGDA等）來提升效率。同時，作者也展望了未來硬件需求，例如通信協處理器以及統一ScaleOut和ScaleUp網絡的計算單元，并指出DeepSeek對未來硬件的演進方向與作者幾年前提出的NetDAM框架高度契合。

7. NetDAM框架的優勢與行業現狀

作者介紹了其在Cisco和第四范式期間參與開發的NetDAM框架，該框架能夠融合ScaleOut和ScaleUp通信，并支持多種通信原語，效率遠超RoCE。作者最后總結指出，雖然NetDAM框架在技術上具有顯著優勢，但由于各個廠商自身的戰略布局和利益考量，其應用和普及仍面臨挑戰。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態 # AI基礎設施 # 分布式訓練 # 大規模預訓練模型 # 異構計算 # 模型壓縮

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

談談DeepSeek-v3提到的基礎設施演進

DeepSeek-v3將算法與基礎設施融合，推動硬件架構創新。

第四屆全球自動駕駛峰會及DeepSeek-v3技術解讀

1. 算法與基礎設施的融合：DeepSeek-v3的成功案例

2. 算力與算法協同發展的經驗

3. 對Transformer架構及AGI的思考

4. 底層算力優化和數學基礎研究

5. 大模型的體系架構演進與類比

6. DeepSeek-v3的硬件優化策略及未來硬件需求

7. NetDAM框架的優勢與行業現狀

聯系作者

Anthropic 的智能體開發經驗：最成功的≠最復雜的

雷軍4小時跨年直播：交小米年終總結，曬30萬輛交車目標，立了N多flag

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點