<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1自寫CUDA內(nèi)核跑分屠榜!斯坦福學(xué)霸狂飆GPU編程自動(dòng)化挑戰(zhàn)人類

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 新智元
        486 0 0

        DeepSeek-R1自寫CUDA內(nèi)核跑分屠榜!斯坦福學(xué)霸狂飆GPU編程自動(dòng)化挑戰(zhàn)人類

        原標(biāo)題:DeepSeek-R1自寫CUDA內(nèi)核跑分屠榜!斯坦福學(xué)霸狂飆GPU編程自動(dòng)化挑戰(zhàn)人類
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):12309字

        AI驅(qū)動(dòng)GPU編程自動(dòng)化:斯坦福和普林斯頓研究突破

        近日,斯坦福和普林斯頓的研究者取得重大突破,其研發(fā)的DeepSeek-R1模型在GPU內(nèi)核自動(dòng)生成領(lǐng)域超越了OpenAI o1和Claude 3.5 Sonnet,取得了排名第一的成績(jī)。這項(xiàng)研究標(biāo)志著AI驅(qū)動(dòng)GPU編程自動(dòng)化的時(shí)代已經(jīng)到來。

        1. DeepSeek-R1:AI內(nèi)核生成的領(lǐng)跑者

        研究者們開發(fā)了一個(gè)名為KernelBench的框架,用于評(píng)估大型語言模型(LLM)生成GPU內(nèi)核的能力。在這個(gè)框架中,DeepSeek-R1模型表現(xiàn)出色,在一定程度上超越了PyTorch Eager基線,生成的自定義CUDA內(nèi)核效率更高。雖然目前僅在不到20%的任務(wù)中超越基線,但這已經(jīng)證明了AI自動(dòng)生成高性能GPU內(nèi)核的可能性。

        2. KernelBench框架:評(píng)估AI內(nèi)核生成能力的關(guān)鍵

        KernelBench框架包含250個(gè)任務(wù),涵蓋了從單個(gè)操作到完整機(jī)器學(xué)習(xí)架構(gòu)等各種AI工作負(fù)載。該框架模擬了AI工程師的迭代優(yōu)化過程,并引入了新的評(píng)估指標(biāo)fast_p,用于衡量生成的內(nèi)核在功能正確性和加速性能方面的表現(xiàn)。通過調(diào)整閾值參數(shù)p,可以評(píng)估不同加速閾值下的內(nèi)核性能。

        3. 模型表現(xiàn)與挑戰(zhàn)

        研究發(fā)現(xiàn),目前的LLM在生成正確且優(yōu)于PyTorch基線速度的內(nèi)核方面仍然面臨挑戰(zhàn)。LLM生成的內(nèi)核存在大量的執(zhí)行錯(cuò)誤和功能正確性問題。雖然推理模型(如o1和R1)生成的錯(cuò)誤解決方案較少,但在性能方面仍未完全超越PyTorch基線。模型生成的內(nèi)核在不同硬件平臺(tái)上的通用性也有待提高。

        4. 反饋機(jī)制提升性能

        研究者們探索了利用反饋機(jī)制來改進(jìn)LLM生成內(nèi)核的能力。通過重復(fù)采樣和迭代優(yōu)化兩種方法,可以顯著提高生成的內(nèi)核的正確率和性能。迭代優(yōu)化過程中,模型可以利用編譯器錯(cuò)誤、執(zhí)行統(tǒng)計(jì)數(shù)據(jù)和PyTorch分析器輸出等反饋信息進(jìn)行自我糾正,從而生成更高效的內(nèi)核。

        5. 硬件知識(shí)的利用

        研究者們還嘗試向模型提供硬件信息(如內(nèi)存帶寬、TFLOPS)和內(nèi)核優(yōu)化技巧(如矩陣乘法中的分塊),以引導(dǎo)模型生成針對(duì)特定GPU的優(yōu)化內(nèi)核。結(jié)果顯示,雖然模型偶爾會(huì)嘗試使用特定于硬件的指令,但往往無確編譯或使用它們。

        6. 未來展望

        KernelBench框架的出現(xiàn)為AI驅(qū)動(dòng)GPU編程自動(dòng)化提供了堅(jiān)實(shí)的基礎(chǔ)。未來,KernelBench將持續(xù)演進(jìn),擴(kuò)展到更多AI任務(wù),并提高加速門檻,以推動(dòng)更高效的優(yōu)化方案。同時(shí),研究者們也計(jì)劃探索更先進(jìn)的微調(diào)和推理技術(shù),以及使用其他編程抽象來簡(jiǎn)化內(nèi)核生成過程。

        7. 行業(yè)趨勢(shì)

        除了斯坦福和普林斯頓的研究,英偉達(dá)、Meta和Sakana AI等公司也紛紛投入到AI驅(qū)動(dòng)GPU內(nèi)核自動(dòng)生成的研究中,并取得了令人矚目的成果。這表明,AI驅(qū)動(dòng)加速AI的新紀(jì)元已經(jīng)到來。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲国产日韩a在线播放| 精品日韩99亚洲的在线发布| 免费看美女让人桶尿口| 亚洲人成电影在线天堂| 亚洲国产精品一区二区三区在线观看| 苍井空亚洲精品AA片在线播放| 免费看男人j放进女人j免费看| 亚洲精品午夜国产VA久久成人| 亚洲精品亚洲人成在线播放| 国产精品内射视频免费| 国产美女亚洲精品久久久综合| 亚洲av无码一区二区三区观看| 免费可以看黄的视频s色| 亚洲人成无码网WWW| 亚洲中文字幕一二三四区苍井空 | 中文在线免费看视频| 亚洲色偷拍另类无码专区| 最新久久免费视频| 亚洲AV无码一区二区乱子伦| 久久亚洲精品11p| 亚洲男女内射在线播放| 亚洲第一成年网站视频| 四虎国产精品免费久久影院| 亚洲AV无码乱码在线观看代蜜桃| 久九九精品免费视频| 综合偷自拍亚洲乱中文字幕 | 日本免费无遮挡吸乳视频电影| 狠狠入ady亚洲精品| 在线观看亚洲精品福利片| 97在线视频免费| 久久久久久亚洲精品中文字幕| 最近中文字幕大全中文字幕免费| 国产成人精品日本亚洲专| 日本免费福利视频| 精品四虎免费观看国产高清午夜| 亚洲依依成人精品| 无码免费午夜福利片在线| 亚洲欧洲高清有无| 国产免费卡一卡三卡乱码| 久99久精品免费视频热77| 亚洲第一福利视频|