<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態1年前 (2024)發布 量子位
        561 0 0

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態歡迎閱讀

        原標題:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快
        關鍵字:張量,內存,研究人員,寄存器,硬件
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIAI算力資源越發緊張的當下,斯坦福新研究將GPU運行效率再提升一波——
        內核只有100行代碼,讓H100比使用FlashAttention-2,性能還要提升30%。
        怎么做到的?
        研究人員從“硬件實際需要什么?如何滿足這些需求?”這兩個問題出發,設計了 一個嵌入式CUDA DSL工具,名為ThunderKittens(暫且譯為雷貓)。
        雷貓可簡化AI內核的編寫,同時充分利用底層硬件能力。
        具體來說,雷貓的主要抽象是寄存器和共享內存中的小型張量塊(tile),和目前GPU中對小矩陣乘法的優化相匹配。
        通過操作這些tile,開發者可相對簡單地編寫代碼,充分利用張量核心、異步數據傳輸和共享內存等硬件特性。
        使用雷貓實現的注意力機制內核,代碼量少且能實現很高的硬件利用率,性能超過直接使用底層庫(如Cutlass)。
        詳細討論過程以及雷貓是怎么設計出的,研究人員以“GPUs Go Brrr”為題,發在了斯坦福Hazy Research的Blog網站上。
        網友們對此討論也十分熱烈。
        有網友表示讀這篇Blog時,讓他想起了初次了解超標量CPU架構時的


        原文鏈接:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲人成网站在线观看播放青青| 国产在线a不卡免费视频| 亚洲无人区午夜福利码高清完整版| 亚洲成AV人片高潮喷水| 999国内精品永久免费视频| 亚洲天堂中文资源| 99精品视频免费观看| 亚洲欧洲国产精品你懂的| 无人在线观看免费高清| 亚洲最大福利视频网站| 最近免费字幕中文大全视频| 久久精品国产亚洲精品2020| 亚洲精品视频在线免费| 亚洲av无码电影网| 四虎影视免费在线| 日韩亚洲人成在线综合| 亚洲AV永久无码精品一区二区国产| 一区免费在线观看| 一本色道久久综合亚洲精品高清| 中文在线免费观看| 亚洲国产女人aaa毛片在线| 亚洲黄色免费网址| 亚洲欧美日韩自偷自拍| 免费国产人做人视频在线观看| 成人在线免费视频| 亚洲av片劲爆在线观看| 国产福利在线免费| 黄页网址在线免费观看 | 成人免费无码大片a毛片软件| 亚洲乱妇熟女爽到高潮的片| 亚洲国产a级视频| a毛片全部播放免费视频完整18| 麻豆亚洲AV永久无码精品久久| 免费不卡视频一卡二卡| 粉色视频成年免费人15次| 亚洲精品无码成人AAA片| 国产在线观看片a免费观看| 羞羞的视频在线免费观看| 亚洲成A人片在线观看WWW| 毛片免费在线观看网址| 久久99久久成人免费播放|