圖解當紅推理框架vLLM的核心技術(shù)PagedAttention
AIGC動態(tài)歡迎閱讀
原標題:圖解當紅推理框架vLLM的核心技術(shù)PagedAttention
關(guān)鍵字:物理,顯存,進程,邏輯,內(nèi)存
文章來源:智猩猩AGI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發(fā)起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設(shè)有開幕式、數(shù)據(jù)中心AI芯片專場、邊緣/端側(cè)AI芯片專場、智算集群技術(shù)論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業(yè)的嘉賓已確認演講或討論。掃碼申請免費票或購票參會~大家好,今天來介紹下當紅推理框架vLLM的核心技術(shù)PagedAttention。PagedAttention的設(shè)計靈感來自操作系統(tǒng)的虛擬內(nèi)存分頁管理技術(shù)。vLLM的論文是在假設(shè)讀者對這項分頁管理技術(shù)非常熟悉的情況下,對PagedAttention進行介紹的,這對一些非計算機專業(yè)出身,或者對操作系統(tǒng)相關(guān)知識有所遺忘的讀者來說并不友好。
因此,本文進行介紹時,會對照著操作系統(tǒng)的相關(guān)知識,和大家一起來看vLLM是如何“一步步”從傳統(tǒng)方法進化到PagedAttention的,同時本文會盡量將抽象的顯存優(yōu)化知識通過圖解的方式向大家說明。
全文目錄如下:
一、LLM推理的兩階段
二、為KV cache分配存儲空間的傳統(tǒng)
原文鏈接:圖解當紅推理框架vLLM的核心技術(shù)PagedAttention
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: