AIGC動態歡迎閱讀
原標題:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍
關鍵字:向量,注意力,吞吐量,全局,序列
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。
來自韓國科學技術研究院、LG和DeepMind的研究人員,提出了一種新的Transformer架構。
不僅獲得了更快的推理速度,內存開銷也大幅度下降。
研究人員詳細分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一個Token就要訪問一次全局KV緩存,消耗了大量資源。
實際上,這種方法的GPU有效利用率不到1%,其余的99%都用在了內存訪問上。
針對這一問題,團隊對Transformer的注意力機制進行了切塊調整,提出了名為Block Transformer的新架構。
結果在沒有明顯質量損失的情況下,推理吞吐量提升了10-20倍。
有網友表示,自己之前也有過類似的思路,但結果模型的性能不足,現在這個方法看上去確實有效削減了KV緩存。
“切開”Transformer的注意力原始Transformer當中,對全局KV的頻繁訪問,導致計算復雜度高、內存占用大,但推理吞吐量卻很低。
針對這一問題,作者的核心思路是將原始Transformer的全局注意力分解,
原文鏈接:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...