“DeepSeek甚至繞過了CUDA”，論文細節再引熱議，工程師靈魂提問：英偉達護城河還在嗎？

“嫌CUDA太慢用匯編，量化交易員才干得出這事”

原標題：“DeepSeek甚至繞過了CUDA”，論文細節再引熱議，工程師靈魂提問：英偉達護城河還在嗎？
文章來源：量子位
內容字數：3318字

DeepSeek-V3引發的CUDA護城河之爭

近日，DeepSeek-V3的驚人性能引發了業界對英偉達CUDA護城河的熱議。DeepSeek-V3在硬件效率上超越Meta等公司10倍，其秘訣在于“從頭開始重建一切”，并繞過了CUDA，使用更底層的PTX語言進行優化。

1. DeepSeek-V3的極致優化

DeepSeek-V3團隊通過修改英偉達H800 GPU的20個流式多處理器（SMs），使其負責服務器間通信而非計算，變相繞過了硬件對通信速度的限制。這種操作使用PTX語言實現，允許進行細粒度的優化，但這同時也帶來了極高的開發復雜度和維護難度。

2. CUDA護城河的質疑

DeepSeek-V3的成功引發了人們對CUDA護城河的質疑。一些人認為，頂尖實驗室能夠有效利用任何GPU，而DeepSeek直接使用PTX進行優化，證明了CUDA并非不可逾越。甚至有人暢想，如果DeepSeek開源一個CUDA替代方案，將對行業產生巨大沖擊。

3. PTX并非完全脫離CUDA

需要明確的是，PTX是CUDA編程模型中的中間表示，它仍然屬于英偉達GPU架構的一部分。CUDA提供高級編程接口和工具鏈，簡化開發流程，而PTX則作為橋梁連接高級語言和底層硬件。DeepSeek直接使用PTX進行優化，雖然實現了極致性能，但也增加了代碼移植的難度，使其難以應用于不同型號的GPU。

4. DeepSeek的多平臺支持

盡管DeepSeek主要使用PTX進行優化，但其已與AMD、華為等團隊合作，支持其他硬件生態，這表明其并非完全依賴CUDA。

5. AI輔助編程的可能性

文章還探討了AI輔助編程的可能性。DeepSeek-R1已證明能夠顯著提升大模型推理框架的運行速度，Llama.cpp項目中也有使用DeepSeek-R1生成的代碼來優化WebAssembly的案例。這暗示了未來AI可能能夠編寫高質量的底層代碼，甚至能夠優化自身的代碼，這將對軟件開發產生深遠的影響。