<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態11個月前發布 量子位
        559 0 0

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態歡迎閱讀

        原標題:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快
        關鍵字:張量,內存,研究人員,寄存器,硬件
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIAI算力資源越發緊張的當下,斯坦福新研究將GPU運行效率再提升一波——
        內核只有100行代碼,讓H100比使用FlashAttention-2,性能還要提升30%。
        怎么做到的?
        研究人員從“硬件實際需要什么?如何滿足這些需求?”這兩個問題出發,設計了 一個嵌入式CUDA DSL工具,名為ThunderKittens(暫且譯為雷貓)。
        雷貓可簡化AI內核的編寫,同時充分利用底層硬件能力。
        具體來說,雷貓的主要抽象是寄存器和共享內存中的小型張量塊(tile),和目前GPU中對小矩陣乘法的優化相匹配。
        通過操作這些tile,開發者可相對簡單地編寫代碼,充分利用張量核心、異步數據傳輸和共享內存等硬件特性。
        使用雷貓實現的注意力機制內核,代碼量少且能實現很高的硬件利用率,性能超過直接使用底層庫(如Cutlass)。
        詳細討論過程以及雷貓是怎么設計出的,研究人員以“GPUs Go Brrr”為題,發在了斯坦福Hazy Research的Blog網站上。
        網友們對此討論也十分熱烈。
        有網友表示讀這篇Blog時,讓他想起了初次了解超標量CPU架構時的


        原文鏈接:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲第一成年免费网站| 亚洲欧美第一成人网站7777| 二区久久国产乱子伦免费精品| 国产成人免费片在线观看| 亚洲AV无码一区二区三区网址 | 热99RE久久精品这里都是精品免费| 可以免费观看一级毛片黄a| 男人的天堂av亚洲一区2区| 国产人成免费视频| 男性gay黄免费网站| 久久精品夜色噜噜亚洲A∨| 你好老叔电影观看免费| 久久久亚洲欧洲日产国码aⅴ| 亚洲三级在线免费观看| 亚洲砖码砖专无区2023 | 国产麻豆一精品一AV一免费| 亚洲精品国产成人片| 久久午夜伦鲁片免费无码| 亚洲人成伊人成综合网久久| 女人18一级毛片免费观看| 狼色精品人妻在线视频免费| 夜夜春亚洲嫩草影院| 2021国内精品久久久久精免费 | 免费国产高清毛不卡片基地 | 亚洲视频在线一区二区三区| 亚洲免费网站观看视频| 污网站在线免费观看| 亚洲第一视频网站| 成人黄18免费视频| 久久久久女教师免费一区| 亚洲色四在线视频观看| 最近中文字幕免费mv视频7| 一个人看的www免费在线视频| 亚洲AV日韩AV高潮无码专区| 毛片免费全部免费观看| 国产免费黄色无码视频| 亚洲成av人片在线看片| 亚洲人成国产精品无码| 在线观看免费视频资源| 人体大胆做受免费视频| 亚洲女人18毛片水真多|