2.5%KV緩存保持大模型90%性能，大模型金字塔式信息匯聚模式探秘｜開源

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：2.5%KV緩存保持大模型90%性能，大模型金字塔式信息匯聚模式探秘｜開源
關鍵字：緩存,注意力,模型,性能,任務
文章來源：量子位
內容字數：0字

內容摘要：

蔡澤凡投稿量子位 | 公眾號 QbitAI用KV緩存加速大模型的顯存瓶頸，終于迎來突破。
北大、威斯康辛-麥迪遜、微軟等聯合團隊提出了全新的緩存分配方案，只用2.5%的KV cache，就能保持大模型90%的性能。
這下再也不用擔心KV占用的顯存容量過高，導致顯卡不夠用了。
該方法名為PyramidKV，顧名思義，在KV緩存壓縮的過程中融入了金字塔型的信息匯聚方式。
在內存受限的情況下，PyramidKV表現非常出色，既保留了長上下文理解能力，又顯著減少了內存使用。
目前，PyramidKV相關代碼已經在GitHub開源。
引入金字塔信息匯聚方式隨著模型尺寸的增大，推理需要的時間越來越多。KV cache作為推理加速的關鍵技術，通過緩存之前的解碼步驟中計算出的Transformer的K和V矩陣減少后續解碼時間。
但是，隨著序列長度增大，需要緩存的KV cache會快速增長，占用大量顯存。針對這一問題，之前的工作設計策略是對KV cache進行壓縮。
實際上，長文本的推理加速和顯存節省作為一個重要的話題，這涉及到廣泛的大模型下游應用，比如檢索增強生成（Retrieval-Augment

原文鏈接：2.5%KV緩存保持大模型90%性能，大模型金字塔式信息匯聚模式探秘｜開源