<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        AIGC動態1年前 (2024)發布 量子位
        311 0 0

        拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        AIGC動態歡迎閱讀

        原標題:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍
        關鍵字:向量,注意力,吞吐量,全局,序列
        文章來源:量子位
        內容字數:0字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。
        來自韓國科學技術研究院、LG和DeepMind的研究人員,提出了一種新的Transformer架構。
        不僅獲得了更快的推理速度,內存開銷也大幅度下降。
        研究人員詳細分析了原始Transformer推理速度慢的原因——
        原始Transformer每生成一個Token就要訪問一次全局KV緩存,消耗了大量資源。
        實際上,這種方法的GPU有效利用率不到1%,其余的99%都用在了內存訪問上。
        針對這一問題,團隊對Transformer的注意力機制進行了切塊調整,提出了名為Block Transformer的新架構。
        結果在沒有明顯質量損失的情況下,推理吞吐量提升了10-20倍。
        有網友表示,自己之前也有過類似的思路,但結果模型的性能不足,現在這個方法看上去確實有效削減了KV緩存。
        “切開”Transformer的注意力原始Transformer當中,對全局KV的頻繁訪問,導致計算復雜度高、內存占用大,但推理吞吐量卻很低。
        針對這一問題,作者的核心思路是將原始Transformer的全局注意力分解,


        原文鏈接:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人精品日本亚洲18图| 奇米影视亚洲春色| 亚洲AV综合色区无码二区偷拍| 97在线免费视频| 亚洲国产另类久久久精品黑人 | 国产精品免费精品自在线观看| 午夜亚洲www湿好大| 日本一卡精品视频免费| 夜夜亚洲天天久久| 日本三级2019在线观看免费| 亚洲国语在线视频手机在线| 国产美女在线精品免费观看| 亚洲中文字幕AV每天更新| 日本一道在线日本一道高清不卡免费 | 亚洲精品123区在线观看| 成人黄色免费网站| 久久夜色精品国产噜噜亚洲a| 免费看少妇作爱视频| 曰批免费视频播放在线看片二| 国产亚洲色视频在线| 免费人成毛片动漫在线播放 | 成年女人男人免费视频播放| 亚洲AV无码精品国产成人| 亚洲第一区在线观看| 中文字幕无码一区二区免费| 久久久亚洲欧洲日产国码aⅴ| 在线观看免费人成视频| 国产精品亚洲av色欲三区| 亚洲色欲一区二区三区在线观看| 无码国产精品一区二区免费3p| 亚洲国产精品一区二区久| 国产女高清在线看免费观看| 亚洲视频精品在线| 啦啦啦中文在线观看电视剧免费版 | 国产无遮挡又黄又爽免费视频| 无码人妻一区二区三区免费视频 | 免费一级毛片无毒不卡| 亚洲av无码不卡久久| 亚洲午夜精品一级在线播放放 | 日韩a毛片免费观看| 亚洲国产综合专区在线电影|