<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態1年前 (2024)發布 量子位
        564 0 0

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態歡迎閱讀

        原標題:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快
        關鍵字:張量,內存,研究人員,寄存器,硬件
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIAI算力資源越發緊張的當下,斯坦福新研究將GPU運行效率再提升一波——
        內核只有100行代碼,讓H100比使用FlashAttention-2,性能還要提升30%。
        怎么做到的?
        研究人員從“硬件實際需要什么?如何滿足這些需求?”這兩個問題出發,設計了 一個嵌入式CUDA DSL工具,名為ThunderKittens(暫且譯為雷貓)。
        雷貓可簡化AI內核的編寫,同時充分利用底層硬件能力。
        具體來說,雷貓的主要抽象是寄存器和共享內存中的小型張量塊(tile),和目前GPU中對小矩陣乘法的優化相匹配。
        通過操作這些tile,開發者可相對簡單地編寫代碼,充分利用張量核心、異步數據傳輸和共享內存等硬件特性。
        使用雷貓實現的注意力機制內核,代碼量少且能實現很高的硬件利用率,性能超過直接使用底層庫(如Cutlass)。
        詳細討論過程以及雷貓是怎么設計出的,研究人員以“GPUs Go Brrr”為題,發在了斯坦福Hazy Research的Blog網站上。
        網友們對此討論也十分熱烈。
        有網友表示讀這篇Blog時,讓他想起了初次了解超標量CPU架構時的


        原文鏈接:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产亚洲精品AA片在线观看不加载| 国外成人免费高清激情视频| 久久精品亚洲福利| 黄色三级三级免费看| 亚洲图片激情小说| 久久久久久久99精品免费 | 亚洲男人的天堂一区二区| 无码欧精品亚洲日韩一区| 久久精品国产亚洲av天美18 | 亚洲五月综合缴情在线观看| 亚洲毛片基地日韩毛片基地| 中文字幕免费在线观看| 久久久久亚洲精品男人的天堂| 人成电影网在线观看免费| 亚洲人成人无码网www电影首页| 久久av免费天堂小草播放| 国产精品免费看香蕉| 老司机午夜性生免费福利| 亚洲人成无码www久久久| 亚洲人成色777777精品| 国产成人涩涩涩视频在线观看免费| 老妇激情毛片免费| 亚洲亚洲人成综合网络| 日韩中文字幕免费视频| 亚洲色无码国产精品网站可下载| 永久黄网站色视频免费观看| 亚洲一区电影在线观看| 青青草国产免费久久久91| 成人a毛片免费视频观看| 日本红怡院亚洲红怡院最新| 麻豆69堂免费视频| 亚洲大尺度无码专区尤物| 黄瓜视频影院在线观看免费| 美女免费视频一区二区| 亚洲ⅴ国产v天堂a无码二区| 久久久久久国产a免费观看黄色大片| 亚洲AV日韩AV一区二区三曲| 精品亚洲一区二区| 青草草在线视频永久免费| baoyu116.永久免费视频| 亚洲精品无码av人在线观看 |