AIGC動態歡迎閱讀
內容摘要:
原文:https://zhuanlan.zhihu.com/p/706469785
一開始本文叫做“聊聊大模型推理中的存儲優化”的,但是發布之后感覺還是要叫分離式推理更好,雖然我本來是想寫存儲優化的,存儲優化太大了,還是聚焦一下。存儲優化是大模型推理中非常重要的一個環節。我在聊聊大模型推理服務中的優化問題(https://zhuanlan.zhihu.com/p/677650022)中對一部分論文進行了解讀,主要包括 Efficient Memory Management for Large Language Model Serving with PagedAttention(也就是vllm)等方法,最近正好和幾篇熱點論文再拓展閱讀一下,例如月之暗面 KIMI chat 的 Mooncake 。
存儲管理,包括計算芯片緩存、顯存、內存甚至磁盤,都可以算在內,因為不管是對離線的參數、緩存,還是對在線的數據搬運、數據復用,都屬于存儲管理。這篇筆記會更加側重于如何優化當前大模型自回歸特點下的 KVCache 在內存和顯存中的擺放位置、管理、檢索、傳輸、預測等等,目標則是為了從整體上提高服務的
原文鏈接:聊聊大模型推理中的分離式推理
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...