比英偉達(dá)工程師還熟練!DeepSeek R1+測試時Scaling自動優(yōu)化GPU內(nèi)核
原標(biāo)題:比英偉達(dá)工程師還熟練!DeepSeek R1+測試時Scaling自動優(yōu)化GPU內(nèi)核
文章來源:新智元
內(nèi)容字?jǐn)?shù):3891字
英偉達(dá)利用DeepSeek-R1和推理時擴展實現(xiàn)GPU內(nèi)核自動生成
本文總結(jié)了英偉達(dá)近期一項突破性研究:通過結(jié)合DeepSeek-R1模型和推理時擴展技術(shù),實現(xiàn)了GPU注意力內(nèi)核的自動化生成,其性能甚至超越了一些經(jīng)驗豐富的工程師。
注意力機制與GPU內(nèi)核優(yōu)化的挑戰(zhàn)
大型語言模型(LLM)中的注意力機制雖然能提升模型性能,但其計算復(fù)雜度與輸入序列長度的平方成正比,導(dǎo)致計算量劇增,并可能出現(xiàn)內(nèi)存不足等問題。為提高效率,需要開發(fā)優(yōu)化的GPU內(nèi)核。然而,針對不同類型的注意力機制(如因果注意力、相對位置嵌入等)以及多模態(tài)模型中的特殊注意力機制(如空間鄰域注意力),手動編寫優(yōu)化的GPU內(nèi)核是一項費時費力的工作,對工程師的技術(shù)水平要求很高。
DeepSeek-R1的局限與推理時擴展的優(yōu)勢
雖然DeepSeek-R1在代碼生成方面展現(xiàn)出巨大潛力,但在生成優(yōu)化GPU內(nèi)核時,仍面臨諸多挑戰(zhàn),例如代碼語法錯誤、不同語言或框架語法混用等,導(dǎo)致生成的代碼無法運行或效率低下。此外,計算最優(yōu)的GPU線程映射也需要反復(fù)調(diào)整。推理時擴展技術(shù)則為解決這一問題提供了新的思路。它通過在推理過程中分配額外計算資源,允許模型評估多種可能性并選擇最優(yōu)解,如同人類一樣逐步剖析復(fù)雜問題。
DeepSeek-R1與推理時擴展的結(jié)合
英偉達(dá)工程師巧妙地將DeepSeek-R1與推理時擴展技術(shù)相結(jié)合,構(gòu)建了一種新的工作流程。該流程首先由工程師輸入提示,DeepSeek-R1生成初始GPU內(nèi)核代碼。然后,一個運行在英偉達(dá)H100 GPU上的驗證器分析生成的代碼,并根據(jù)不足之處生成新的提示,反饋給DeepSeek-R1,進行迭代改進。整個過程持續(xù)約15分鐘。
令人矚目的成果與未來展望
測試結(jié)果顯示,該方法在KernelBench基準(zhǔn)測試中取得了顯著成果。在Level-1問題中,生成的內(nèi)核數(shù)值正確率達(dá)到100%;在Level-2問題中,正確率達(dá)到96%。推理時間預(yù)算對結(jié)果影響顯著,分配更長的推理時間能顯著提高代碼正確率。該方法生成的內(nèi)核在某些情況下甚至優(yōu)于人工編寫的內(nèi)核。雖然該技術(shù)仍處于早期階段,但其在自動化GPU內(nèi)核生成方面的潛力巨大,為未來研究方向提供了新的可能性。
總而言之,英偉達(dá)的這項研究為GPU內(nèi)核的自動化生成開辟了一條新的道路,通過巧妙地結(jié)合DeepSeek-R1和推理時擴展技術(shù),極大地提高了GPU內(nèi)核生成的效率和質(zhì)量,并為未來AI模型的優(yōu)化提供了新的思路。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。