AIGC動態歡迎閱讀
原標題:只需百行代碼,讓H100提速30%,斯坦福開源全新AI加速框架
關鍵字:張量,寄存器,硬件,內存,指令
文章來源:機器之心
內容字數:20123字
內容摘要:
機器之心報道
機器之心編輯部提高 GPU 利用率,就是這么簡單。AI 的快速發展,伴隨而來的是大計算量。這就自然而然的引出了一個問題:如何減少 AI 對計算的需求,并提高現有 AI 計算效率。
為了回答這一問題,來自斯坦福的研究者在博客《GPUs Go Brrr》中給出了答案。博客地址:https://hazyresearch.stanford.edu/blog/2024-05-12-tk
文章主要專注于兩個問題:一是硬件真正需要什么?二是如何滿足硬件需求?
文章用大量篇幅討論了如何讓 GPU 更快的運行,并發布了一個庫 ThunderKittens,用戶可以很容易地在 CUDA 上編寫快速的深度學習內核。其具有以下特點:
簡單,ThunderKittens 寫起來非常簡單。
可擴展性,如果用戶需要 ThunderKittens 無法提供的功能,可以進行功能擴展。
速度快。GitHub 鏈接:https://github.com/HazyResearch/ThunderKittens
ThunderKittens 使得一些棘手的事情變得非常簡單,從而在現代硬件上實現了非常高的利用率。項
原文鏈接:只需百行代碼,讓H100提速30%,斯坦福開源全新AI加速框架
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...