<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        AIGC動態1年前 (2024)發布 量子位
        314 0 0

        拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        AIGC動態歡迎閱讀

        原標題:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍
        關鍵字:向量,注意力,吞吐量,全局,序列
        文章來源:量子位
        內容字數:0字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。
        來自韓國科學技術研究院、LG和DeepMind的研究人員,提出了一種新的Transformer架構。
        不僅獲得了更快的推理速度,內存開銷也大幅度下降。
        研究人員詳細分析了原始Transformer推理速度慢的原因——
        原始Transformer每生成一個Token就要訪問一次全局KV緩存,消耗了大量資源。
        實際上,這種方法的GPU有效利用率不到1%,其余的99%都用在了內存訪問上。
        針對這一問題,團隊對Transformer的注意力機制進行了切塊調整,提出了名為Block Transformer的新架構。
        結果在沒有明顯質量損失的情況下,推理吞吐量提升了10-20倍。
        有網友表示,自己之前也有過類似的思路,但結果模型的性能不足,現在這個方法看上去確實有效削減了KV緩存。
        “切開”Transformer的注意力原始Transformer當中,對全局KV的頻繁訪問,導致計算復雜度高、內存占用大,但推理吞吐量卻很低。
        針對這一問題,作者的核心思路是將原始Transformer的全局注意力分解,


        原文鏈接:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲色爱图小说专区| 亚洲高清中文字幕| 亚洲国产精品第一区二区三区| 免费看a级黄色片| 久久久久se色偷偷亚洲精品av| 欧美亚洲国产SUV| 精品久久久久久久免费加勒比| 亚洲欧美乱色情图片| 在线免费观看毛片网站| 亚洲色无码一区二区三区| WWW免费视频在线观看播放| 亚洲欧洲日产国码高潮αv| 亚洲综合中文字幕无线码| 9久久免费国产精品特黄| 亚洲人成精品久久久久| 国产免费网站看v片在线| 亚洲福利在线观看| 最近免费中文在线视频| 亚洲男女内射在线播放| 国产激情久久久久影院老熟女免费| 国产亚洲精品资在线| 久久久久亚洲精品无码网址色欲| 全部免费毛片在线| 成人免费乱码大片A毛片| 免费高清小黄站在线观看| 免费人成网上在线观看| 亚洲宅男天堂在线观看无病毒| av永久免费网站在线观看 | 青青青免费国产在线视频小草| 99久久婷婷国产综合亚洲| 四虎影在线永久免费四虎地址8848aa| 一级一黄在线观看视频免费| 蜜桃视频在线观看免费网址入口| 亚洲欧美日韩中文高清www777| 亚洲人成电影在线播放| 51视频精品全部免费最新| 亚洲国产AV无码一区二区三区| 午夜免费1000部| 亚洲天堂中文字幕在线观看| 免费高清资源黄网站在线观看| 中文字幕av免费专区|