AIGC動態歡迎閱讀
原標題:圖解當紅推理框架vLLM的核心技術PagedAttention
關鍵字:物理,顯存,進程,邏輯,內存
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯片專場、智算集群技術論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業的嘉賓已確認演講或討論。掃碼申請免費票或購票參會~大家好,今天來介紹下當紅推理框架vLLM的核心技術PagedAttention。PagedAttention的設計靈感來自操作系統的虛擬內存分頁管理技術。vLLM的論文是在假設讀者對這項分頁管理技術非常熟悉的情況下,對PagedAttention進行介紹的,這對一些非計算機專業出身,或者對操作系統相關知識有所遺忘的讀者來說并不友好。
因此,本文進行介紹時,會對照著操作系統的相關知識,和大家一起來看vLLM是如何“一步步”從傳統方法進化到PagedAttention的,同時本文會盡量將抽象的顯存優化知識通過圖解的方式向大家說明。
全文目錄如下:
一、LLM推理的兩階段
二、為KV cache分配存儲空間的傳統
原文鏈接:圖解當紅推理框架vLLM的核心技術PagedAttention
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...