如何通過KV稀疏實現對vLLM的1.5倍加速

AIGC動態歡迎閱讀

原標題：如何通過KV稀疏實現對vLLM的1.5倍加速
關鍵字：模型,算法,性能,特性,策略
文章來源：AI前線
內容字數：0字

內容摘要：

作者 | PPIO 算法專家張青青前言近一年以來，自 H2O 起，關于 KV 稀疏的論文便百花齊放，而在實際應用中不得不面臨的一個問題便是學術論文與實際應用之間的巨大鴻溝，例如，像 vLLM 等框架采用的是 PagedAttention 等分頁內存，與大部分的稀疏算法都無法與之兼容或者本身性能不如 PagedAttention，類似的種種問題，導致了稀疏算法無法真正的在生產中應用。
我們參考 KV 稀疏這一方向最近一年的學術論文，結合 vLLM 框架本身的優化特性，例如 Continuous Batching、FlashAttention、PagedAttention 等，對 VLLM 框架進行基于 KV 稀疏的修改，最終基于線上最常用的模型、參數與硬件，與 sota 版本的推理框架進行對比，實現了 1.5 倍的推理加速。
說到 KV 稀疏之前，不得不說的便是 LLM 的 Massive Activations 特性，即在 LLM 中有很少數的激活值明顯活躍于其他的激活，有時候高于其他激活 100,000 倍以上，換而言之，即少部分的 token 起到了至關重要的作用，因而可以通過

原文鏈接：如何通過KV稀疏實現對vLLM的1.5倍加速

聯系作者

文章來源：AI前線
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 性能 # 模型 # 特性 # 策略 # 算法

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

如何通過KV稀疏實現對vLLM的1.5倍加速

AIGC動態歡迎閱讀

內容摘要：

聯系作者

AI公司波形智能解散，主創團隊集體入職OPPO；微軟亞研院前首席研究經理譚旭加入月之暗面；商湯CEO內部信曝光丨AI情報局

觀察者智能水平導致物理學三大理論差異，智能科學視野下的萬物理論新探索

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

如何通過KV稀疏實現對vLLM的1.5倍加速

AIGC動態歡迎閱讀

內容摘要：

聯系作者

AI公司波形智能解散，主創團隊集體入職OPPO；微軟亞研院前首席研究經理譚旭加入月之暗面；商湯CEO內部信曝光丨AI情報局

觀察者智能水平導致物理學三大理論差異，智能科學視野下的萬物理論新探索

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

AI公司波形智能解散，主創團隊集體入職OPPO；微軟亞研院前首席研究經理譚旭加入月之暗面；商湯CEO內部信曝光丨AI情報局

觀察者智能水平導致物理學三大理論差異，智能科學視野下的萬物理論新探索