<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        把注意力計(jì)算丟給CPU,大模型解碼吞吐量提高1.76~4.99倍

        AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 量子位
        478 0 0

        基于局部敏感哈希采樣技術(shù)

        把注意力計(jì)算丟給CPU,大模型解碼吞吐量提高1.76~4.99倍

        原標(biāo)題:把注意力計(jì)算丟給CPU,大模型解碼吞吐量提高1.76~4.99倍
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):5268字

        MagicPIG: 緩解大語言模型KV緩存壓力的創(chuàng)新方案

        來自卡內(nèi)基梅隆大學(xué)、華盛頓大學(xué)和Meta AI的研究人員提出了一種名為MagicPIG的新方法,有效解決了大語言模型(LLM)推理過程中GPU內(nèi)存容量限制的問題,該問題主要由KV緩存的巨大內(nèi)存占用引起。

        1. KV緩存瓶頸與現(xiàn)有方法的不足

        1. 在長(zhǎng)上下文LLM推理中,KV緩存用于存儲(chǔ)中間注意力鍵和值,避免重復(fù)計(jì)算,但其內(nèi)存占用隨批量大小和序列長(zhǎng)度線性增長(zhǎng),嚴(yán)重限制了GPU的批量處理能力。

        2. 現(xiàn)有技術(shù)如TopK Attention、Quest、H2O和Loki等,試圖通過選擇注意力得分最高的子集來壓縮KV緩存,但這些方法存在精度損失的問題,尤其在需要高上下文利用率的復(fù)雜任務(wù)中,性能下降嚴(yán)重。

        3. 研究人員觀察到注意力機(jī)制的三個(gè)關(guān)鍵特性,解釋了TopK方法的局限性:首個(gè)輸入token的隱藏狀態(tài)幾乎不隨輸入變化;鍵狀態(tài)的中心方向在不同輸入句子中保持穩(wěn)定;鍵狀態(tài)的中心與匯聚點(diǎn)token的鍵狀態(tài)幾乎相反。

        2. MagicPIG的創(chuàng)新之處

        1. **基于采樣而非搜索:** MagicPIG采用基于采樣的注意力估計(jì)方法,而非像TopK那樣搜索最高的鍵值對(duì)。這通過引入基礎(chǔ)分布信息,顯著提高了估計(jì)精度,并降低了估計(jì)誤差。

        2. **局部敏感哈希(LSH)技術(shù):** MagicPIG利用LSH生成采樣概率,并結(jié)合重要性采樣技術(shù),有效地從已知分布中抽取樣本,來估計(jì)未知分布的期望,從而降低估計(jì)方差。

        3. **異構(gòu)計(jì)算:** MagicPIG將注意力計(jì)算和哈希表卸載到CPU上,充分利用CPU的內(nèi)存資源,降低了對(duì)GPU顯存的依賴。實(shí)驗(yàn)表明,這種方法等效地提升了CPU的內(nèi)存帶寬,在維持精度的情況下實(shí)現(xiàn)了高效的注意力計(jì)算。

        3. 系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果

        1. MagicPIG將LLM解碼分為四個(gè)部分:參數(shù)計(jì)算(GPU)、注意力計(jì)算(CPU)、隨機(jī)投影(GPU)和檢索(CPU)。這種任務(wù)分區(qū)有效地利用了CPU和GPU的優(yōu)勢(shì)。

        2. 實(shí)驗(yàn)結(jié)果表明,MagicPIG在Llama-3.1-8B-Instruct模型上,相比于Quest,在檢索和推理任務(wù)中實(shí)現(xiàn)了更高的下游準(zhǔn)確率。同時(shí),MagicPIG的解碼吞吐量提高了1.76~4.99倍。

        4. 總結(jié)

        MagicPIG通過巧妙地結(jié)合LSH采樣技術(shù)和異構(gòu)計(jì)算,有效緩解了LLM推理過程中的KV緩存壓力,在保證精度的同時(shí)大幅提升了推理速度和吞吐量。這項(xiàng)研究為降低LLM部署成本,探索異構(gòu)計(jì)算的可能性提供了新的思路。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲熟女乱综合一区二区| 久久青草免费91观看| 亚洲xxxx视频| 综合偷自拍亚洲乱中文字幕| 亚洲一卡2卡3卡4卡5卡6卡| 免费一区二区三区在线视频| 久操视频在线免费观看| 国产亚洲福利精品一区| 亚洲免费在线视频观看| 亚洲国产精品网站在线播放| jizz在线免费观看| 国产2021精品视频免费播放| 免费人成网站7777视频| 亚洲视屏在线观看| 日产久久强奸免费的看| 亚洲免费在线观看| 亚洲www77777| 免费成人午夜视频| 中文字幕一区二区免费| 日本免费观看网站| 亚洲视频免费在线看| 欧美日韩国产免费一区二区三区| 国产福利电影一区二区三区,亚洲国模精品一区 | baoyu777永久免费视频| 国产∨亚洲V天堂无码久久久| 亚洲人成色777777老人头| 99热这里有免费国产精品| 波多野结衣免费视频观看| 一区二区视频在线免费观看| 日韩毛片免费在线观看| 男人和女人高潮免费网站| 亚洲第一AV网站| 日韩在线免费视频| 久久精品国产亚洲AV高清热| 有色视频在线观看免费高清在线直播| 日韩精品无码区免费专区| 国产亚洲情侣久久精品| 国产精品四虎在线观看免费| 亚洲乱人伦中文字幕无码| 国产成人高清亚洲| 美女视频黄免费亚洲|