比英偉達工程師還熟練！DeepSeek R1+測試時Scaling自動優化GPU內核

AIGC動態5個月前發布新智元

343 0 0

原標題：比英偉達工程師還熟練！DeepSeek R1+測試時Scaling自動優化GPU內核
文章來源：新智元
內容字數：3891字

英偉達利用DeepSeek-R1和推理時擴展實現GPU內核自動生成

本文總結了英偉達近期一項突破性研究：通過結合DeepSeek-R1模型和推理時擴展技術，實現了GPU注意力內核的自動化生成，其性能甚至超越了一些經驗豐富的工程師。

注意力機制與GPU內核優化的挑戰
大型語言模型(LLM)中的注意力機制雖然能提升模型性能，但其計算復雜度與輸入序列長度的平方成正比，導致計算量劇增，并可能出現內存不足等問題。為提高效率，需要開發優化的GPU內核。然而，針對不同類型的注意力機制(如因果注意力、相對位置嵌入等)以及多模態模型中的特殊注意力機制(如空間鄰域注意力)，手動編寫優化的GPU內核是一項費時費力的工作，對工程師的技術水平要求很高。
DeepSeek-R1的局限與推理時擴展的優勢
雖然DeepSeek-R1在代碼生成方面展現出巨大潛力，但在生成優化GPU內核時，仍面臨諸多挑戰，例如代碼語法錯誤、不同語言或框架語法混用等，導致生成的代碼無法運行或效率低下。此外，計算最優的GPU線程映射也需要反復調整。推理時擴展技術則為解決這一問題提供了新的思路。它通過在推理過程中分配額外計算資源，允許模型評估多種可能性并選擇最優解，如同人類一樣逐步剖析復雜問題。
DeepSeek-R1與推理時擴展的結合
英偉達工程師巧妙地將DeepSeek-R1與推理時擴展技術相結合，構建了一種新的工作流程。該流程首先由工程師輸入提示，DeepSeek-R1生成初始GPU內核代碼。然后，一個運行在英偉達H100 GPU上的驗證器分析生成的代碼，并根據不足之處生成新的提示，反饋給DeepSeek-R1，進行迭代改進。整個過程持續約15分鐘。
令人矚目的成果與未來展望
測試結果顯示，該方法在KernelBench基準測試中取得了顯著成果。在Level-1問題中，生成的內核數值正確率達到100%；在Level-2問題中，正確率達到96%。推理時間預算對結果影響顯著，分配更長的推理時間能顯著提高代碼正確率。該方法生成的內核在某些情況下甚至優于人工編寫的內核。雖然該技術仍處于早期階段，但其在自動化GPU內核生成方面的潛力巨大，為未來研究方向提供了新的可能性。

總而言之，英偉達的這項研究為GPU內核的自動化生成開辟了一條新的道路，通過巧妙地結合DeepSeek-R1和推理時擴展技術，極大地提高了GPU內核生成的效率和質量，并為未來AI模型的優化提供了新的思路。