中美硬件差異下的算力突圍
DeepSeek 引發的 AI 算力:系統軟件的創新與機遇
2025 年伊始,DeepSeek 團隊以 2048 張 H800 GPU,在兩個月內訓練出媲美全球頂尖水平的大模型,打破了 AI 領域“更大即更好”的傳統觀念,引發了業界對算力利用效率的深刻反思。
1. DeepSeek 的成功:算法與系統軟件的協同創新
DeepSeek 的突破并非僅僅依賴算力規模,更在于其在算法和系統軟件層面的深度創新。 它采用創新的 MoE 架構,并通過精細化的系統工程優化,例如雙向流水并行機制、混合精度計算和低精度通信策略等,極大地提升了性價比,實現了百倍的性能提升。這表明,在算力資源受限的情況下,通過算法和軟件的協同創新,能夠充分挖掘硬件的極致性能。
2. 算力效能評估的新視角:超越 GPU 利用率
文章指出,單純依靠 GPU 利用率來評估算力利用效率是不夠全面的。 一個有效的評估體系需要考慮整個集群的資源利用情況,包括網絡、存儲等,并且要根據不同的應用場景(訓練、推理)選擇合適的指標,例如吞吐量、延遲和成本等。降低推理成本對于 AI 應用的推廣至關重要。
3. 中美硬件差異下的軟件思考:探索中國特色發展路徑
由于中美在硬件方面的差異,中國需要探索出一條符合自身現實情況的 AI 發展路徑。 這需要學習借鑒國外的先進經驗,同時針對國產芯片的特點進行創新,打通從應用到系統軟件再到自主芯片的完整鏈路。 這不僅是技術創新,更是戰略抉擇。
4. Transformer 專用芯片的挑戰與機遇
目前,尚未出現專門針對 Transformer 的專用芯片,這主要是因為 AI 模型發展迅速,Transformer 架構也持續演進,難以設計出通用的、長期有效的專用芯片。 NVIDIA 的做法——通過相對穩定的硬件架構和靈活的軟件適配——為我們提供了寶貴的經驗。
5. 萬卡集群訓練的挑戰與系統軟件的應對
萬卡集群訓練面臨著并行策略選擇、通信效率、容錯機制和單卡性能等多方面的挑戰。 未來,系統軟件需要針對不同階段(預訓練、后訓練、微調、推理)的負載特點進行優化,并解決負載不均衡等問題。 此外,還需要關注 KV Cache 管理和多卡協同等關鍵技術。
6. 智算中心算力供需錯配:系統軟件的補位作用
文章指出,目前存在智算中心國產算力閑置,而應用開發者又缺乏算力的現象。 這凸顯了系統軟件的重要性,需要通過提升國產算力的易用性,來促進國產算力的有效利用,從而推動 AI 產業發展。
7. 未來趨勢:系統軟件的全面發展和算力資源的統一管理
未來 1-3 年內,系統軟件優化將朝著構建完整的基礎軟件體系方向發展,包括編程語言、編譯器、通信庫、并行計算和編程框架等多個層面。 同時,需要建立完善的算力度量標準和統一的算力管理平臺,讓算力像水電一樣成為便捷的基礎設施。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
相關文章
