告別CUDA無需Triton！Mirage零門檻生成PyTorch算子，人均GPU編程大師？

AIGC動態(tài)歡迎閱讀

原標(biāo)題：告別CUDA無需Triton！Mirage零門檻生成PyTorch算子，人均GPU編程大師？
關(guān)鍵字：內(nèi)核,注意力,線程,性能,乘法
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com近日，來自 CMU 的 Catalyst Group 團隊發(fā)布了一款 PyTorch 算子編譯器 Mirage，用戶無需編寫任何 CUDA 和 Triton 代碼就可以自動生成 GPU 內(nèi)核，并取得更佳的性能。
隨著 GPU 加速器的不斷發(fā)展以及以大語言模型為代表的生成式 AI 應(yīng)用的不斷推廣，通過開發(fā)高性能 GPU 內(nèi)核來優(yōu)化 PyTorch 程序的計算效率變得越來越重要。目前，這項任務(wù)主要由專門的 GPU 專家來完成。在 NVIDIA CUDA 或 AMD ROCm 中編寫高性能 GPU 內(nèi)核需要高水平的 GPU 專業(yè)知識和大量的工程開發(fā)經(jīng)驗。目前的機器學(xué)習(xí)編譯器（如 TVM、Triton 和 Mojo）提供了一些高級編程接口，以簡化 GPU 編程，使用戶

原文鏈接：告別CUDA無需Triton！Mirage零門檻生成PyTorch算子，人均GPU編程大師？