2.5%KV緩存保持大模型90%性能,大模型金字塔式信息匯聚模式探秘|開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:2.5%KV緩存保持大模型90%性能,大模型金字塔式信息匯聚模式探秘|開源
關(guān)鍵字:緩存,注意力,模型,性能,任務(wù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
蔡澤凡 投稿量子位 | 公眾號 QbitAI用KV緩存加速大模型的顯存瓶頸,終于迎來突破。
北大、威斯康辛-麥迪遜、微軟等聯(lián)合團隊提出了全新的緩存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。
這下再也不用擔(dān)心KV占用的顯存容量過高,導(dǎo)致顯卡不夠用了。
該方法名為PyramidKV,顧名思義,在KV緩存壓縮的過程中融入了金字塔型的信息匯聚方式。
在內(nèi)存受限的情況下,PyramidKV表現(xiàn)非常出色,既保留了長上下文理解能力,又顯著減少了內(nèi)存使用。
目前,PyramidKV相關(guān)代碼已經(jīng)在GitHub開源。
引入金字塔信息匯聚方式隨著模型尺寸的增大,推理需要的時間越來越多。KV cache作為推理加速的關(guān)鍵技術(shù),通過緩存之前的解碼步驟中計算出的Transformer的K和V矩陣減少后續(xù)解碼時間。
但是,隨著序列長度增大,需要緩存的KV cache會快速增長,占用大量顯存。針對這一問題,之前的工作設(shè)計策略是對KV cache進行壓縮。
實際上,長文本的推理加速和顯存節(jié)省作為一個重要的話題,這涉及到廣泛的大模型下游應(yīng)用,比如檢索增強生成(Retrieval-Augment
原文鏈接:2.5%KV緩存保持大模型90%性能,大模型金字塔式信息匯聚模式探秘|開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
