聊聊大模型推理中的分離式推理
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:聊聊大模型推理中的分離式推理
關(guān)鍵字:解讀,華為,分布式,階段,問題
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
原文:https://zhuanlan.zhihu.com/p/706469785
一開始本文叫做“聊聊大模型推理中的存儲(chǔ)優(yōu)化”的,但是發(fā)布之后感覺還是要叫分離式推理更好,雖然我本來是想寫存儲(chǔ)優(yōu)化的,存儲(chǔ)優(yōu)化太大了,還是聚焦一下。存儲(chǔ)優(yōu)化是大模型推理中非常重要的一個(gè)環(huán)節(jié)。我在聊聊大模型推理服務(wù)中的優(yōu)化問題(https://zhuanlan.zhihu.com/p/677650022)中對(duì)一部分論文進(jìn)行了解讀,主要包括 Efficient Memory Management for Large Language Model Serving with PagedAttention(也就是vllm)等方法,最近正好和幾篇熱點(diǎn)論文再拓展閱讀一下,例如月之暗面 KIMI chat 的 Mooncake 。
存儲(chǔ)管理,包括計(jì)算芯片緩存、顯存、內(nèi)存甚至磁盤,都可以算在內(nèi),因?yàn)椴还苁菍?duì)離線的參數(shù)、緩存,還是對(duì)在線的數(shù)據(jù)搬運(yùn)、數(shù)據(jù)復(fù)用,都屬于存儲(chǔ)管理。這篇筆記會(huì)更加側(cè)重于如何優(yōu)化當(dāng)前大模型自回歸特點(diǎn)下的 KVCache 在內(nèi)存和顯存中的擺放位置、管理、檢索、傳輸、預(yù)測(cè)等等,目標(biāo)則是為了從整體上提高服務(wù)的
原文鏈接:聊聊大模型推理中的分離式推理
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。