清華翟季冬：DeepSeek 百倍算力效能背后的系統 | 智者訪談

中美硬件差異下的算力突圍

清華翟季冬：DeepSeek 百倍算力效能背后的系統革命 | 智者訪談

原標題：清華翟季冬：DeepSeek 百倍算力效能背后的系統 | 智者訪談
文章來源：機器之心
內容字數：15615字

DeepSeek 引發的 AI 算力：系統軟件的創新與機遇

2025 年伊始，DeepSeek 團隊以 2048 張 H800 GPU，在兩個月內訓練出媲美全球頂尖水平的大模型，打破了 AI 領域“更大即更好”的傳統觀念，引發了業界對算力利用效率的深刻反思。

1. DeepSeek 的成功：算法與系統軟件的協同創新

DeepSeek 的突破并非僅僅依賴算力規模，更在于其在算法和系統軟件層面的深度創新。它采用創新的 MoE 架構，并通過精細化的系統工程優化，例如雙向流水并行機制、混合精度計算和低精度通信策略等，極大地提升了性價比，實現了百倍的性能提升。這表明，在算力資源受限的情況下，通過算法和軟件的協同創新，能夠充分挖掘硬件的極致性能。

2. 算力效能評估的新視角：超越 GPU 利用率

文章指出，單純依靠 GPU 利用率來評估算力利用效率是不夠全面的。一個有效的評估體系需要考慮整個集群的資源利用情況，包括網絡、存儲等，并且要根據不同的應用場景（訓練、推理）選擇合適的指標，例如吞吐量、延遲和成本等。降低推理成本對于 AI 應用的推廣至關重要。

3. 中美硬件差異下的軟件思考：探索中國特色發展路徑

由于中美在硬件方面的差異，中國需要探索出一條符合自身現實情況的 AI 發展路徑。這需要學習借鑒國外的先進經驗，同時針對國產芯片的特點進行創新，打通從應用到系統軟件再到自主芯片的完整鏈路。這不僅是技術創新，更是戰略抉擇。

4. Transformer 專用芯片的挑戰與機遇

目前，尚未出現專門針對 Transformer 的專用芯片，這主要是因為 AI 模型發展迅速，Transformer 架構也持續演進，難以設計出通用的、長期有效的專用芯片。 NVIDIA 的做法——通過相對穩定的硬件架構和靈活的軟件適配——為我們提供了寶貴的經驗。

5. 萬卡集群訓練的挑戰與系統軟件的應對

萬卡集群訓練面臨著并行策略選擇、通信效率、容錯機制和單卡性能等多方面的挑戰。未來，系統軟件需要針對不同階段（預訓練、后訓練、微調、推理）的負載特點進行優化，并解決負載不均衡等問題。此外，還需要關注 KV Cache 管理和多卡協同等關鍵技術。

6. 智算中心算力供需錯配：系統軟件的補位作用

文章指出，目前存在智算中心國產算力閑置，而應用開發者又缺乏算力的現象。這凸顯了系統軟件的重要性，需要通過提升國產算力的易用性，來促進國產算力的有效利用，從而推動 AI 產業發展。

7. 未來趨勢：系統軟件的全面發展和算力資源的統一管理

未來 1-3 年內，系統軟件優化將朝著構建完整的基礎軟件體系方向發展，包括編程語言、編譯器、通信庫、并行計算和編程框架等多個層面。同時，需要建立完善的算力度量標準和統一的算力管理平臺，讓算力像水電一樣成為便捷的基礎設施。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI算力瓶頸 # DeepSeek # 清華大學人工智能 # 百倍算力效能 # 系統級優化

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片