圖解當紅推理框架vLLM的核心技術(shù)PagedAttention

AIGC動態(tài)1年前 (2024)發(fā)布智猩猩AGI

AIGC動態(tài)歡迎閱讀

原標題：圖解當紅推理框架vLLM的核心技術(shù)PagedAttention
關(guān)鍵字：物理,顯存,進程,邏輯,內(nèi)存
文章來源：智猩猩AGI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

生成式AI時代最火AI芯片峰會下月來襲！9月6-7日，智猩猩發(fā)起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設(shè)有開幕式、數(shù)據(jù)中心AI芯片專場、邊緣/端側(cè)AI芯片專場、智算集群技術(shù)論壇等7大板塊。目前，來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業(yè)的嘉賓已確認演講或討論。掃碼申請免費票或購票參會～大家好，今天來介紹下當紅推理框架vLLM的核心技術(shù)PagedAttention。PagedAttention的設(shè)計靈感來自操作系統(tǒng)的虛擬內(nèi)存分頁管理技術(shù)。vLLM的論文是在假設(shè)讀者對這項分頁管理技術(shù)非常熟悉的情況下，對PagedAttention進行介紹的，這對一些非計算機專業(yè)出身，或者對操作系統(tǒng)相關(guān)知識有所遺忘的讀者來說并不友好。
因此，本文進行介紹時，會對照著操作系統(tǒng)的相關(guān)知識，和大家一起來看vLLM是如何“一步步”從傳統(tǒng)方法進化到PagedAttention的，同時本文會盡量將抽象的顯存優(yōu)化知識通過圖解的方式向大家說明。
全文目錄如下：
一、LLM推理的兩階段
二、為KV cache分配存儲空間的傳統(tǒng)

原文鏈接：圖解當紅推理框架vLLM的核心技術(shù)PagedAttention