<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek的多頭潛在注意力(MLA)和11種KV-Cache技巧演進(jìn)大總結(jié)

        AIGC動(dòng)態(tài)4個(gè)月前發(fā)布 智猩猩GenAI
        700 0 0

        總結(jié)11篇最近的研究論文,歸納三大類。

        DeepSeek的多頭潛在注意力(MLA)和11種KV-Cache技巧演進(jìn)大總結(jié)

        原標(biāo)題:DeepSeek的多頭潛在注意力(MLA)和11種KV-Cache技巧演進(jìn)大總結(jié)
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):9138字

        2025中國生成式AI大會(huì)預(yù)告及KV-Cache技術(shù)深度解析

        2025中國生成式AI大會(huì)(北京站)即將于4月1日-2日舉行,聚焦DeepSeek與大模型等前沿技術(shù)。本文將總結(jié)11篇最新研究論文,探討KV-Cache如何優(yōu)化大型語言模型(LLM)的文本生成速度。

        1. 文本生成緩慢的原因:自注意力機(jī)制的計(jì)算瓶頸

        大型語言模型的文本生成速度慢,主要源于自注意力機(jī)制。在生成每個(gè)新token時(shí),模型需要重新計(jì)算所有先前token的上下文信息,計(jì)算成本隨序列長度呈平方增長(O(n2))。

        2. KV緩存:巧妙的權(quán)衡

        KV緩存通過預(yù)計(jì)算并存儲(chǔ)每個(gè)token的鍵(key)和值(value)來解決這個(gè)問題。生成新token時(shí),只需查找相關(guān)信息,將計(jì)算復(fù)雜度降低到線性(O(n))。但與此同時(shí),KV緩存也增加了內(nèi)存消耗。

        3. 優(yōu)化KV緩存的三大方法

        為了解決KV緩存的內(nèi)存問題,研究人員提出了三大類優(yōu)化方法:

        3.1 Token選擇和修剪方法

        1. Heavy-Hitter Oracle (H2O+):識(shí)別并保留重要token,減少緩存大小。

        2. StreamLLM+:利用注意力匯聚現(xiàn)象,保留初始token,處理最近上下文。

        3. Value-Aware Token Pruning (VATP):綜合考慮注意力分?jǐn)?shù)和值向量信息,進(jìn)行token修剪。

        3.2 后處理壓縮技術(shù)

        4. Adaptive KV Compression (FastGen):根據(jù)運(yùn)行時(shí)注意力模式自適應(yīng)地選擇壓縮策略。

        5. 動(dòng)態(tài)內(nèi)存壓縮 (DMC+):自適應(yīng)地合并token,降低內(nèi)存占用。

        6. 范數(shù)基礎(chǔ)的壓縮:利用鍵嵌入范數(shù)與注意力分?jǐn)?shù)的相關(guān)性進(jìn)行壓縮。

        3.3 體系結(jié)構(gòu)重設(shè)計(jì)

        7. 多查詢注意力 (MQA+):共享鍵值頭,減少緩存大小。

        8. 分組查詢注意力 (GQA+):在MQA和傳統(tǒng)多頭注意力之間權(quán)衡。

        9. 多頭潛在注意力 (MLA):使用低秩潛在壓縮技術(shù),減少KV緩存大小。

        10. SnapKV:利用觀察窗口識(shí)別注意力模式進(jìn)行壓縮。

        11. 只緩存一次 (YOCO):修改Transformer架構(gòu),優(yōu)化緩存機(jī)制。

        4. 結(jié)論

        KV-Cache技術(shù)是優(yōu)化LLM推理速度的關(guān)鍵。通過token選擇、后處理壓縮和架構(gòu)重設(shè)計(jì)等方法,研究人員不斷提升LLM的效率,使其在長上下文和資源受限的場(chǎng)景下也能良好運(yùn)行。 KV-Cache仍然是一個(gè)活躍的研究領(lǐng)域,未來將有更多創(chuàng)新涌現(xiàn)。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲Aⅴ在线无码播放毛片一线天| 亚洲色婷婷六月亚洲婷婷6月| 亚洲天堂一区在线| 蜜桃成人无码区免费视频网站 | 四虎国产精品成人免费久久| 日韩免费在线观看| 亚洲精品无码aⅴ中文字幕蜜桃| 99精品国产免费久久久久久下载 | 亚洲日本在线电影| 女人毛片a级大学毛片免费| 亚洲日韩精品国产一区二区三区 | 久久精品国产亚洲av水果派| 亚洲黄色免费网站| 亚洲国产综合在线| 大陆一级毛片免费视频观看| 日韩亚洲国产综合高清| 24小时日本韩国高清免费| 亚洲日韩中文字幕| 啦啦啦www免费视频| 亚洲AV无码AV吞精久久| 免费v片视频在线观看视频| 亚洲免费日韩无码系列| 国产亚洲精品不卡在线| 久久这里只精品热免费99| 亚洲精品视频久久| 在线观看免费成人| 香蕉国产在线观看免费| 亚洲av无码潮喷在线观看| 亚洲一区二区免费视频| 久久亚洲AV成人无码国产最大| 一本久到久久亚洲综合| 青青草原1769久久免费播放| 亚洲一区二区三区高清不卡 | 毛片免费在线视频| 国产99久久久国产精免费| 亚洲性天天干天天摸| 一个人看www在线高清免费看| 日韩亚洲综合精品国产| 亚洲AV永久纯肉无码精品动漫| 三年片在线观看免费大全| 免费高清A级毛片在线播放|