原標題:DeepSeek-R1自寫CUDA內核跑分屠榜!斯坦福學霸狂飆GPU編程自動化挑戰人類
文章來源:新智元
內容字數:12309字
AI驅動GPU編程自動化:斯坦福和普林斯頓研究突破
近日,斯坦福和普林斯頓的研究者取得重大突破,其研發的DeepSeek-R1模型在GPU內核自動生成領域超越了OpenAI o1和Claude 3.5 Sonnet,取得了排名第一的成績。這項研究標志著AI驅動GPU編程自動化的時代已經到來。
1. DeepSeek-R1:AI內核生成的領跑者
研究者們開發了一個名為KernelBench的框架,用于評估大型語言模型(LLM)生成GPU內核的能力。在這個框架中,DeepSeek-R1模型表現出色,在一定程度上超越了PyTorch Eager基線,生成的自定義CUDA內核效率更高。雖然目前僅在不到20%的任務中超越基線,但這已經證明了AI自動生成高性能GPU內核的可能性。
2. KernelBench框架:評估AI內核生成能力的關鍵
KernelBench框架包含250個任務,涵蓋了從單個操作到完整機器學習架構等各種AI工作負載。該框架模擬了AI工程師的迭代優化過程,并引入了新的評估指標fast_p,用于衡量生成的內核在功能正確性和加速性能方面的表現。通過調整閾值參數p,可以評估不同加速閾值下的內核性能。
3. 模型表現與挑戰
研究發現,目前的LLM在生成正確且優于PyTorch基線速度的內核方面仍然面臨挑戰。LLM生成的內核存在大量的執行錯誤和功能正確性問題。雖然推理模型(如o1和R1)生成的錯誤解決方案較少,但在性能方面仍未完全超越PyTorch基線。模型生成的內核在不同硬件平臺上的通用性也有待提高。
4. 反饋機制提升性能
研究者們探索了利用反饋機制來改進LLM生成內核的能力。通過重復采樣和迭代優化兩種方法,可以顯著提高生成的內核的正確率和性能。迭代優化過程中,模型可以利用編譯器錯誤、執行統計數據和PyTorch分析器輸出等反饋信息進行自我糾正,從而生成更高效的內核。
5. 硬件知識的利用
研究者們還嘗試向模型提供硬件信息(如內存帶寬、TFLOPS)和內核優化技巧(如矩陣乘法中的分塊),以引導模型生成針對特定GPU的優化內核。結果顯示,雖然模型偶爾會嘗試使用特定于硬件的指令,但往往無確編譯或使用它們。
6. 未來展望
KernelBench框架的出現為AI驅動GPU編程自動化提供了堅實的基礎。未來,KernelBench將持續演進,擴展到更多AI任務,并提高加速門檻,以推動更高效的優化方案。同時,研究者們也計劃探索更先進的微調和推理技術,以及使用其他編程抽象來簡化內核生成過程。
7. 行業趨勢
除了斯坦福和普林斯頓的研究,英偉達、Meta和Sakana AI等公司也紛紛投入到AI驅動GPU內核自動生成的研究中,并取得了令人矚目的成果。這表明,AI驅動加速AI的新紀元已經到來。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。