<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        高效Attention引擎是怎樣煉成的?陳天奇團隊FlashInfer打響新年第一槍!

        AIGC動態4個月前發布 新智元
        544 0 0

        高效Attention引擎是怎樣煉成的?陳天奇團隊FlashInfer打響新年第一槍!

        原標題:高效Attention引擎是怎樣煉成的?陳天奇團隊FlashInfer打響新年第一槍!
        文章來源:新智元
        內容字數:6055字

        FlashInfer:高效LLM推理引擎

        新年伊始,陳天奇團隊發布了FlashInfer論文,旨在提升大語言模型(LLM)的推理效率。該論文詳細介紹了FlashInfer如何通過塊稀疏、可組合、可定制以及負載均衡等技術,在各種推理場景下顯著提升性能。

        1. LLM推理的挑戰

          傳統的Transformer模型在實際應用中面臨諸多工程挑戰,例如多樣化的工作負載、個性化的Attention實現以及對延遲和吞吐量的嚴格要求。不同的推理階段(Prefill、Decode、多輪對話)和技術(Speculative Decoding)都帶來了不同的計算訪存比,影響GPU利用率。此外,各種LLM框架(如vLLM、SGLang)在KV cache存儲方面也存在差異,增加了框架的復雜性。

        2. 塊稀疏格式:高效存儲KV Cache

          FlashInfer提出使用塊稀疏(BSR)矩陣來統一存儲各種形式的KV cache。BSR類似于CSR,但操作單元由單個元素變為數據塊,從而提高GPU的利用率。對于Paged Attention、Radix Tree和Token Tree等不同形式的KV cache,BSR都能有效地減少冗余,并最大化Tensor Core的利用率。通過將稀疏塊數據加載到共享內存并排布成密集格式,FlashInfer消除了硬件浪費。

        3. 塊并行與可組合性

          FlashInfer采用與BPT相同的塊并行方法分解KV cache,實現并行計算,并通過可組合特性支持不同大小塊的組合,在共享和全局內存之間取得平衡,進一步優化性能。

        4. 可定制的注意力機制

          FlashInfer為FlashAttention開發了CUDA/CUTLASS模板,支持不同架構的Nvidia GPU,并提供可自定義的Attention機制。開發者可以通過插入自定義函數來實現個性化的Attention計算,例如ALiBi、Logits SoftCap、RoPE等,提高了框架的靈活性。

        5. 高效的數據移動和負載均衡

          FlashInfer采用高效的數據加載方法,將tiles從全局內存轉移到共享內存,并利用異步復制指令最大化內存帶寬。同時,它根據硬件資源和工作負載選擇合適的塊大小,并通過負載均衡調度算法,根據用戶請求動態調整資源分配,并兼容CUDAGraph。

        6. 性能提升

          實測結果表明,FlashInfer顯著提升了LLM推理性能,token間延遲降低了29%-69%,長上下文推理延遲降低了28%-30%,并行生成速度提高了13%-17%。

        總而言之,FlashInfer通過巧妙地結合塊稀疏格式、塊并行計算、可組合性和負載均衡等技術,為構建高效且可定制的LLM推理引擎提供了一種新的解決方案,顯著提升了LLM的推理效率。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 97在线免费观看视频| 毛片免费观看的视频在线| 亚洲一级片在线观看| 国产成人3p视频免费观看 | 国产精品亚洲五月天高清| 亚洲中文字幕丝袜制服一区| 免费91麻豆精品国产自产在线观看 | 日本久久久免费高清| 亚洲国产精品精华液| 狼友av永久网站免费观看| 亚洲AV永久无码天堂影院| 日韩免费观看视频| 亚洲人成无码网WWW| 亚洲毛片无码专区亚洲乱| h视频在线观看免费完整版| 亚洲成a人片7777| 午夜福利不卡片在线播放免费| 亚洲最大的黄色网| 无码人妻久久一区二区三区免费丨| 亚洲高清中文字幕免费| 国产免费人成在线视频| 特a级免费高清黄色片 | 美女啪啪网站又黄又免费| 亚洲欧洲自拍拍偷精品 美利坚| 三级网站在线免费观看| 亚洲第一成年人网站| 四虎在线视频免费观看| GOGOGO高清免费看韩国| 久久精品亚洲日本佐佐木明希| 99久久99这里只有免费费精品| 大桥未久亚洲无av码在线| 国产精品亚洲成在人线| 欧亚精品一区三区免费| 精品一区二区三区无码免费直播 | 老妇激情毛片免费| 亚洲精品V欧洲精品V日韩精品| 亚洲一级免费毛片| 免费一级特黄特色大片| 亚洲视频网站在线观看| 免费人成在线观看视频高潮| 亚洲成aⅴ人片在线影院八|