DeepSeek-R1自寫CUDA內核跑分屠榜!斯坦福學霸狂飆GPU編程自動化挑戰(zhàn)人類

原標題:DeepSeek-R1自寫CUDA內核跑分屠榜!斯坦福學霸狂飆GPU編程自動化挑戰(zhàn)人類
文章來源:新智元
內容字數(shù):12309字
AI驅動GPU編程自動化:斯坦福和普林斯頓研究突破
近日,斯坦福和普林斯頓的研究者取得重大突破,其研發(fā)的DeepSeek-R1模型在GPU內核自動生成領域超越了OpenAI o1和Claude 3.5 Sonnet,取得了排名第一的成績。這項研究標志著AI驅動GPU編程自動化的時代已經到來。
1. DeepSeek-R1:AI內核生成的領跑者
研究者們開發(fā)了一個名為KernelBench的框架,用于評估大型語言模型(LLM)生成GPU內核的能力。在這個框架中,DeepSeek-R1模型表現(xiàn)出色,在一定程度上超越了PyTorch Eager基線,生成的自定義CUDA內核效率更高。雖然目前僅在不到20%的任務中超越基線,但這已經證明了AI自動生成高性能GPU內核的可能性。
2. KernelBench框架:評估AI內核生成能力的關鍵
KernelBench框架包含250個任務,涵蓋了從單個操作到完整機器學習架構等各種AI工作負載。該框架模擬了AI工程師的迭代優(yōu)化過程,并引入了新的評估指標fast_p,用于衡量生成的內核在功能正確性和加速性能方面的表現(xiàn)。通過調整閾值參數(shù)p,可以評估不同加速閾值下的內核性能。
3. 模型表現(xiàn)與挑戰(zhàn)
研究發(fā)現(xiàn),目前的LLM在生成正確且優(yōu)于PyTorch基線速度的內核方面仍然面臨挑戰(zhàn)。LLM生成的內核存在大量的執(zhí)行錯誤和功能正確性問題。雖然推理模型(如o1和R1)生成的錯誤解決方案較少,但在性能方面仍未完全超越PyTorch基線。模型生成的內核在不同硬件平臺上的通用性也有待提高。
4. 反饋機制提升性能
研究者們探索了利用反饋機制來改進LLM生成內核的能力。通過重復采樣和迭代優(yōu)化兩種方法,可以顯著提高生成的內核的正確率和性能。迭代優(yōu)化過程中,模型可以利用編譯器錯誤、執(zhí)行統(tǒng)計數(shù)據(jù)和PyTorch分析器輸出等反饋信息進行自我糾正,從而生成更高效的內核。
5. 硬件知識的利用
研究者們還嘗試向模型提供硬件信息(如內存帶寬、TFLOPS)和內核優(yōu)化技巧(如矩陣乘法中的分塊),以引導模型生成針對特定GPU的優(yōu)化內核。結果顯示,雖然模型偶爾會嘗試使用特定于硬件的指令,但往往無確編譯或使用它們。
6. 未來展望
KernelBench框架的出現(xiàn)為AI驅動GPU編程自動化提供了堅實的基礎。未來,KernelBench將持續(xù)演進,擴展到更多AI任務,并提高加速門檻,以推動更高效的優(yōu)化方案。同時,研究者們也計劃探索更先進的微調和推理技術,以及使用其他編程抽象來簡化內核生成過程。
7. 行業(yè)趨勢
除了斯坦福和普林斯頓的研究,英偉達、Meta和Sakana AI等公司也紛紛投入到AI驅動GPU內核自動生成的研究中,并取得了令人矚目的成果。這表明,AI驅動加速AI的新紀元已經到來。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網安備 44011502001135號