拆分Transformer注意力,韓國(guó)團(tuán)隊(duì)讓大模型解碼提速20倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:拆分Transformer注意力,韓國(guó)團(tuán)隊(duì)讓大模型解碼提速20倍
關(guān)鍵字:向量,注意力,吞吐量,全局,序列
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。
來(lái)自韓國(guó)科學(xué)技術(shù)研究院、LG和DeepMind的研究人員,提出了一種新的Transformer架構(gòu)。
不僅獲得了更快的推理速度,內(nèi)存開(kāi)銷也大幅度下降。
研究人員詳細(xì)分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一個(gè)Token就要訪問(wèn)一次全局KV緩存,消耗了大量資源。
實(shí)際上,這種方法的GPU有效利用率不到1%,其余的99%都用在了內(nèi)存訪問(wèn)上。
針對(duì)這一問(wèn)題,團(tuán)隊(duì)對(duì)Transformer的注意力機(jī)制進(jìn)行了切塊調(diào)整,提出了名為Block Transformer的新架構(gòu)。
結(jié)果在沒(méi)有明顯質(zhì)量損失的情況下,推理吞吐量提升了10-20倍。
有網(wǎng)友表示,自己之前也有過(guò)類似的思路,但結(jié)果模型的性能不足,現(xiàn)在這個(gè)方法看上去確實(shí)有效削減了KV緩存。
“切開(kāi)”Transformer的注意力原始Transformer當(dāng)中,對(duì)全局KV的頻繁訪問(wèn),導(dǎo)致計(jì)算復(fù)雜度高、內(nèi)存占用大,但推理吞吐量卻很低。
針對(duì)這一問(wèn)題,作者的核心思路是將原始Transformer的全局注意力分解,
原文鏈接:拆分Transformer注意力,韓國(guó)團(tuán)隊(duì)讓大模型解碼提速20倍
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破