<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        AIGC動態10個月前發布 機器之心
        566 0 0

        無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        AIGC動態歡迎閱讀

        原標題:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升
        關鍵字:注意力,跨度,模型,長度,上下文
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心發布
        機器之心編輯部隨著大語言模型在長文本場景下的需求不斷涌現,其核心的注意力機制(Attention Mechanism)也獲得了非常多的關注。
        注意力機制會計算一定跨度內輸入文本(令牌,Token)之間的交互,從而實現對上下文的理解。隨著應用的發展,高效處理更長輸入的需求也隨之增長 [1][2],這帶來了計算代價的挑戰:注意力高昂的計算成本和不斷增長的鍵值緩存(KV-Cache)代價。稀疏注意力機制可以有效緩解內存和吞吐量的挑戰。
        然而,現有稀疏注意力通常采用統一的稀疏注意力模式,即對不同的注意力頭和輸入長度應用相同的稀疏模式。這種統一的方法難以捕捉到大語言模型中多樣的注意力模式,導致不同注意力頭的不同的精度 – 代價權衡被忽略。
        最近,來自清華大學、無問芯穹和上海交通大學的研究團隊發表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,提出通過混合不同稀疏度的注意力頭,使用 25% 的注意力稠密度,就可以記憶幾乎 100% 的上下文。
        本工作現已開源,歡迎交流


        原文鏈接:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 无码av免费毛片一区二区| 久久精品成人免费网站| 巨胸喷奶水视频www网免费| 亚洲黄色免费观看| 永久免费在线观看视频| 亚洲国产综合精品| 4399好看日本在线电影免费| 久久亚洲春色中文字幕久久久| 99精品视频在线视频免费观看| 亚洲国产精品第一区二区| 999任你躁在线精品免费不卡| 亚洲欧洲一区二区| 久久午夜免费视频| 亚洲成av人在线观看网站| 国产一区二区三区免费在线观看| 无码AV动漫精品一区二区免费| 亚洲精品偷拍视频免费观看 | 青青操免费在线视频| 久久精品国产精品亚洲艾草网| 日韩av无码免费播放| 亚洲国产精品福利片在线观看| 国产情侣久久久久aⅴ免费| 亚洲系列国产精品制服丝袜第| 国产曰批免费视频播放免费s| 亚洲色最新高清av网站| 亚洲欧洲精品成人久久曰影片| 你是我的城池营垒免费观看完整版| 亚洲av无码成h人动漫无遮挡| 久草视频在线免费| 香港一级毛片免费看| 亚洲乱码中文字幕综合 | 中国精品一级毛片免费播放| 久久夜色精品国产噜噜噜亚洲AV| 青春禁区视频在线观看直播免费 | 国内精品免费视频自在线| 无码AV动漫精品一区二区免费 | 最新黄色免费网站| 国产精品亚洲精品久久精品| 国产亚洲精品资源在线26u| 免费在线观看的网站| 中国好声音第二季免费播放|