原標題:比英偉達工程師還熟練!DeepSeek R1+測試時Scaling自動優化GPU內核
文章來源:新智元
內容字數:3891字
英偉達利用DeepSeek-R1和推理時擴展實現GPU內核自動生成
本文總結了英偉達近期一項突破性研究:通過結合DeepSeek-R1模型和推理時擴展技術,實現了GPU注意力內核的自動化生成,其性能甚至超越了一些經驗豐富的工程師。
注意力機制與GPU內核優化的挑戰
大型語言模型(LLM)中的注意力機制雖然能提升模型性能,但其計算復雜度與輸入序列長度的平方成正比,導致計算量劇增,并可能出現內存不足等問題。為提高效率,需要開發優化的GPU內核。然而,針對不同類型的注意力機制(如因果注意力、相對位置嵌入等)以及多模態模型中的特殊注意力機制(如空間鄰域注意力),手動編寫優化的GPU內核是一項費時費力的工作,對工程師的技術水平要求很高。
DeepSeek-R1的局限與推理時擴展的優勢
雖然DeepSeek-R1在代碼生成方面展現出巨大潛力,但在生成優化GPU內核時,仍面臨諸多挑戰,例如代碼語法錯誤、不同語言或框架語法混用等,導致生成的代碼無法運行或效率低下。此外,計算最優的GPU線程映射也需要反復調整。推理時擴展技術則為解決這一問題提供了新的思路。它通過在推理過程中分配額外計算資源,允許模型評估多種可能性并選擇最優解,如同人類一樣逐步剖析復雜問題。
DeepSeek-R1與推理時擴展的結合
英偉達工程師巧妙地將DeepSeek-R1與推理時擴展技術相結合,構建了一種新的工作流程。該流程首先由工程師輸入提示,DeepSeek-R1生成初始GPU內核代碼。然后,一個運行在英偉達H100 GPU上的驗證器分析生成的代碼,并根據不足之處生成新的提示,反饋給DeepSeek-R1,進行迭代改進。整個過程持續約15分鐘。
令人矚目的成果與未來展望
測試結果顯示,該方法在KernelBench基準測試中取得了顯著成果。在Level-1問題中,生成的內核數值正確率達到100%;在Level-2問題中,正確率達到96%。推理時間預算對結果影響顯著,分配更長的推理時間能顯著提高代碼正確率。該方法生成的內核在某些情況下甚至優于人工編寫的內核。雖然該技術仍處于早期階段,但其在自動化GPU內核生成方面的潛力巨大,為未來研究方向提供了新的可能性。
總而言之,英偉達的這項研究為GPU內核的自動化生成開辟了一條新的道路,通過巧妙地結合DeepSeek-R1和推理時擴展技術,極大地提高了GPU內核生成的效率和質量,并為未來AI模型的優化提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。