<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

拆分Transformer注意力，韓國團隊讓大模型解碼提速20倍

AIGC動態1年前 (2024)發布量子位

311 0 0

拆分Transformer注意力，韓國團隊讓大模型解碼提速20倍

AIGC動態歡迎閱讀

原標題：拆分Transformer注意力，韓國團隊讓大模型解碼提速20倍
關鍵字：向量,注意力,吞吐量,全局,序列
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI只要將注意力切塊，就能讓大模型解碼提速20倍。
來自韓國科學技術研究院、LG和DeepMind的研究人員，提出了一種新的Transformer架構。
不僅獲得了更快的推理速度，內存開銷也大幅度下降。
研究人員詳細分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一個Token就要訪問一次全局KV緩存，消耗了大量資源。
實際上，這種方法的GPU有效利用率不到1%，其余的99%都用在了內存訪問上。
針對這一問題，團隊對Transformer的注意力機制進行了切塊調整，提出了名為Block Transformer的新架構。
結果在沒有明顯質量損失的情況下，推理吞吐量提升了10-20倍。
有網友表示，自己之前也有過類似的思路，但結果模型的性能不足，現在這個方法看上去確實有效削減了KV緩存。
“切開”Transformer的注意力原始Transformer當中，對全局KV的頻繁訪問，導致計算復雜度高、內存占用大，但推理吞吐量卻很低。
針對這一問題，作者的核心思路是將原始Transformer的全局注意力分解，

原文鏈接：拆分Transformer注意力，韓國團隊讓大模型解碼提速20倍

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

# AIGC動態 # 全局 # 向量 # 吞吐量 # 序列 # 注意力

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...

主站蜘蛛池模板：国产成人精品日本亚洲18图| 奇米影视亚洲春色| 亚洲AV综合色区无码二区偷拍| 97在线免费视频| 亚洲国产另类久久久精品黑人 | 国产精品免费精品自在线观看| 午夜亚洲www湿好大| 日本一卡精品视频免费| 夜夜亚洲天天久久| 日本三级2019在线观看免费| 亚洲国语在线视频手机在线| 国产美女在线精品免费观看| 亚洲中文字幕AV每天更新| 日本一道在线日本一道高清不卡免费 | 亚洲精品123区在线观看| 成人黄色免费网站| 久久夜色精品国产噜噜亚洲a| 免费看少妇作爱视频| 曰批免费视频播放在线看片二| 国产亚洲色视频在线| 免费人成毛片动漫在线播放 | 成年女人男人免费视频播放| 亚洲AV无码精品国产成人| 亚洲第一区在线观看| 中文字幕无码一区二区免费| 久久久亚洲欧洲日产国码aⅴ| 在线观看免费人成视频| 国产精品亚洲av色欲三区| 亚洲色欲一区二区三区在线观看| 无码国产精品一区二区免费3p| 亚洲国产精品一区二区久| 国产女高清在线看免费观看| 亚洲视频精品在线| 啦啦啦中文在线观看电视剧免费版 | 国产无遮挡又黄又爽免费视频| 无码人妻一区二区三区免费视频 | 免费一级毛片无毒不卡| 亚洲av无码不卡久久| 亚洲午夜精品一级在线播放放 | 日韩a毛片免费观看| 亚洲国产综合专区在线电影|