DeepSeek的多頭潛在注意力（MLA）和11種KV-Cache技巧演進(jìn)大總結(jié)

AIGC動(dòng)態(tài)4個(gè)月前發(fā)布智猩猩GenAI

700 0 0

總結(jié)11篇最近的研究論文，歸納三大類。

原標(biāo)題：DeepSeek的多頭潛在注意力（MLA）和11種KV-Cache技巧演進(jìn)大總結(jié)
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：9138字

2025中國生成式AI大會(huì)預(yù)告及KV-Cache技術(shù)深度解析

2025中國生成式AI大會(huì)（北京站）即將于4月1日-2日舉行，聚焦DeepSeek與大模型等前沿技術(shù)。本文將總結(jié)11篇最新研究論文，探討KV-Cache如何優(yōu)化大型語言模型（LLM）的文本生成速度。

1. 文本生成緩慢的原因：自注意力機(jī)制的計(jì)算瓶頸

大型語言模型的文本生成速度慢，主要源于自注意力機(jī)制。在生成每個(gè)新token時(shí)，模型需要重新計(jì)算所有先前token的上下文信息，計(jì)算成本隨序列長度呈平方增長（O(n2)）。

2. KV緩存：巧妙的權(quán)衡

KV緩存通過預(yù)計(jì)算并存儲(chǔ)每個(gè)token的鍵(key)和值(value)來解決這個(gè)問題。生成新token時(shí)，只需查找相關(guān)信息，將計(jì)算復(fù)雜度降低到線性(O(n))。但與此同時(shí)，KV緩存也增加了內(nèi)存消耗。

3. 優(yōu)化KV緩存的三大方法

為了解決KV緩存的內(nèi)存問題，研究人員提出了三大類優(yōu)化方法：

3.1 Token選擇和修剪方法

1. Heavy-Hitter Oracle (H2O+)：識(shí)別并保留重要token，減少緩存大小。

2. StreamLLM+：利用注意力匯聚現(xiàn)象，保留初始token，處理最近上下文。

3. Value-Aware Token Pruning (VATP)：綜合考慮注意力分?jǐn)?shù)和值向量信息，進(jìn)行token修剪。

3.2 后處理壓縮技術(shù)

4. Adaptive KV Compression (FastGen)：根據(jù)運(yùn)行時(shí)注意力模式自適應(yīng)地選擇壓縮策略。

5. 動(dòng)態(tài)內(nèi)存壓縮 (DMC+)：自適應(yīng)地合并token，降低內(nèi)存占用。

6. 范數(shù)基礎(chǔ)的壓縮：利用鍵嵌入范數(shù)與注意力分?jǐn)?shù)的相關(guān)性進(jìn)行壓縮。

3.3 體系結(jié)構(gòu)重設(shè)計(jì)

7. 多查詢注意力 (MQA+)：共享鍵值頭，減少緩存大小。

8. 分組查詢注意力 (GQA+)：在MQA和傳統(tǒng)多頭注意力之間權(quán)衡。

9. 多頭潛在注意力 (MLA)：使用低秩潛在壓縮技術(shù)，減少KV緩存大小。

10. SnapKV：利用觀察窗口識(shí)別注意力模式進(jìn)行壓縮。

11. 只緩存一次 (YOCO)：修改Transformer架構(gòu)，優(yōu)化緩存機(jī)制。

4. 結(jié)論

KV-Cache技術(shù)是優(yōu)化LLM推理速度的關(guān)鍵。通過token選擇、后處理壓縮和架構(gòu)重設(shè)計(jì)等方法，研究人員不斷提升LLM的效率，使其在長上下文和資源受限的場(chǎng)景下也能良好運(yùn)行。 KV-Cache仍然是一個(gè)活躍的研究領(lǐng)域，未來將有更多創(chuàng)新涌現(xiàn)。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下賬號(hào)，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeek模型 # KV緩存優(yōu)化 # 多頭潛在注意力 # 模型參數(shù)壓縮 # 高效注意力機(jī)制

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

DeepSeek的多頭潛在注意力（MLA）和11種KV-Cache技巧演進(jìn)大總結(jié)

總結(jié)11篇最近的研究論文，歸納三大類。

2025中國生成式AI大會(huì)預(yù)告及KV-Cache技術(shù)深度解析

1. 文本生成緩慢的原因：自注意力機(jī)制的計(jì)算瓶頸

2. KV緩存：巧妙的權(quán)衡

3. 優(yōu)化KV緩存的三大方法

3.1 Token選擇和修剪方法

3.2 后處理壓縮技術(shù)

3.3 體系結(jié)構(gòu)重設(shè)計(jì)

4. 結(jié)論

聯(lián)系作者

DPO-Shift：一個(gè)參數(shù)可控改變DPO分布，緩解似然偏移

谷歌開卷打工人！創(chuàng)始人讓員工每天12小時(shí)，奪回AI地位！網(wǎng)友先怒了：像你一樣在公司玩游戲嗎？

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)