“嫌CUDA太慢用匯編,量化交易員才干得出這事”
原標題:“DeepSeek甚至繞過了CUDA”,論文細節再引熱議,工程師靈魂提問:英偉達護城河還在嗎?
文章來源:量子位
內容字數:3318字
DeepSeek-V3引發的CUDA護城河之爭
近日,DeepSeek-V3的驚人性能引發了業界對英偉達CUDA護城河的熱議。DeepSeek-V3在硬件效率上超越Meta等公司10倍,其秘訣在于“從頭開始重建一切”,并繞過了CUDA,使用更底層的PTX語言進行優化。
1. DeepSeek-V3的極致優化
DeepSeek-V3團隊通過修改英偉達H800 GPU的20個流式多處理器(SMs),使其負責服務器間通信而非計算,變相繞過了硬件對通信速度的限制。這種操作使用PTX語言實現,允許進行細粒度的優化,但這同時也帶來了極高的開發復雜度和維護難度。
2. CUDA護城河的質疑
DeepSeek-V3的成功引發了人們對CUDA護城河的質疑。一些人認為,頂尖實驗室能夠有效利用任何GPU,而DeepSeek直接使用PTX進行優化,證明了CUDA并非不可逾越。甚至有人暢想,如果DeepSeek開源一個CUDA替代方案,將對行業產生巨大沖擊。
3. PTX并非完全脫離CUDA
需要明確的是,PTX是CUDA編程模型中的中間表示,它仍然屬于英偉達GPU架構的一部分。CUDA提供高級編程接口和工具鏈,簡化開發流程,而PTX則作為橋梁連接高級語言和底層硬件。DeepSeek直接使用PTX進行優化,雖然實現了極致性能,但也增加了代碼移植的難度,使其難以應用于不同型號的GPU。
4. DeepSeek的多平臺支持
盡管DeepSeek主要使用PTX進行優化,但其已與AMD、華為等團隊合作,支持其他硬件生態,這表明其并非完全依賴CUDA。
5. AI輔助編程的可能性
文章還探討了AI輔助編程的可能性。DeepSeek-R1已證明能夠顯著提升大模型推理框架的運行速度,Llama.cpp項目中也有使用DeepSeek-R1生成的代碼來優化WebAssembly的案例。這暗示了未來AI可能能夠編寫高質量的底層代碼,甚至能夠優化自身的代碼,這將對軟件開發產生深遠的影響。
6. 總結
DeepSeek-V3的成功案例并非完全否定CUDA的價值,而是展現了在追求極致性能時,對底層硬件進行精細化控制的潛力。這同時也暗示著未來AI技術自身可能成為推動底層軟件優化和硬件開發的重要力量。 DeepSeek的策略,雖然復雜且難以復制,但無疑為GPU編程和AI發展開辟了新的思路。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破