AIGC動態歡迎閱讀
原標題:如何通過KV稀疏實現對vLLM的1.5倍加速
關鍵字:模型,算法,性能,特性,策略
文章來源:AI前線
內容字數:0字
內容摘要:
作者 | PPIO 算法專家張青青前 言近一年以來,自 H2O 起,關于 KV 稀疏的論文便百花齊放,而在實際應用中不得不面臨的一個問題便是學術論文與實際應用之間的巨大鴻溝,例如,像 vLLM 等框架采用的是 PagedAttention 等分頁內存,與大部分的稀疏算法都無法與之兼容或者本身性能不如 PagedAttention,類似的種種問題,導致了稀疏算法無法真正的在生產中應用。
我們參考 KV 稀疏這一方向最近一年的學術論文,結合 vLLM 框架本身的優化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,對 VLLM 框架進行基于 KV 稀疏的修改,最終基于線上最常用的模型、參數與硬件,與 sota 版本的推理框架進行對比,實現了 1.5 倍的推理加速。
說到 KV 稀疏之前,不得不說的便是 LLM 的 Massive Activations 特性,即在 LLM 中有很少數的激活值明顯活躍于其他的激活,有時候高于其他激活 100,000 倍以上,換而言之,即少部分的 token 起到了至關重要的作用,因而可以通過
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...