大模型壓縮KV緩存新突破,中科大提出自適應(yīng)預(yù)算分配,工業(yè)界已落地vLLM框架
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型壓縮KV緩存新突破,中科大提出自適應(yīng)預(yù)算分配,工業(yè)界已落地vLLM框架
關(guān)鍵字:報告,注意力,預(yù)算,分配,團(tuán)隊
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
中科大博士馮源 投稿量子位 | 公眾號 QbitAI改進(jìn)KV緩存壓縮,大模型推理顯存瓶頸迎來新突破——
中科大研究團(tuán)隊提出Ada-KV,通過自適應(yīng)預(yù)算分配算法來優(yōu)化KV緩存的驅(qū)逐過程,以提高推理效率。
打破KV Cache壓縮將所有注意力頭分配相同壓縮預(yù)算的常規(guī)做法,針對不同的注意力頭進(jìn)行適配性壓縮預(yù)算分配
展開來說,由于大模型在自回歸生成過程中,每生成一個新token都需要將對應(yīng)的KV矩陣存儲下來,這導(dǎo)致緩存隨著生成序列長度的增加而急劇膨脹,引發(fā)內(nèi)存和I/O延遲問題,尤其在長序列推理中尤為突出。
因此,KV緩存壓縮成為了一項必要的優(yōu)化。
不過令人頭禿的是,現(xiàn)有壓縮方法往往在各個注意力頭之間平均分配預(yù)算,未能考慮其特性差異。
而中科大團(tuán)隊在注意到——不同注意力頭關(guān)注度存在差異后,對其進(jìn)行適配性壓縮預(yù)算分配,通過精細(xì)化運作帶來更高的壓縮質(zhì)量。
相關(guān)研究不僅在學(xué)術(shù)界引起討論,更實現(xiàn)了工業(yè)界開源落地。
例如,Cloudflare workers AI團(tuán)隊進(jìn)一步將其改進(jìn)落地于工業(yè)部署常用的vLLM框架中,并發(fā)布技術(shù)報告,開源全部代碼。
KV緩存壓縮從均勻性預(yù)算分配→適配性預(yù)算分配一開始,Ada
原文鏈接:大模型壓縮KV緩存新突破,中科大提出自適應(yīng)預(yù)算分配,工業(yè)界已落地vLLM框架
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: