圖解當(dāng)紅推理框架vLLM的核心技術(shù)PagedAttention

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:圖解當(dāng)紅推理框架vLLM的核心技術(shù)PagedAttention
關(guān)鍵字:物理,顯存,進(jìn)程,邏輯,內(nèi)存
文章來(lái)源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
生成式AI時(shí)代最火AI芯片峰會(huì)下月來(lái)襲!9月6-7日,智猩猩發(fā)起主辦的2024全球AI芯片峰會(huì)將在北京盛大舉行。峰會(huì)設(shè)有開(kāi)幕式、數(shù)據(jù)中心AI芯片專場(chǎng)、邊緣/端側(cè)AI芯片專場(chǎng)、智算集群技術(shù)論壇等7大板塊。目前,來(lái)自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵(lì)飛、中國(guó)移動(dòng)研究院、北極雄芯等40+企業(yè)的嘉賓已確認(rèn)演講或討論。掃碼申請(qǐng)免費(fèi)票或購(gòu)票參會(huì)~大家好,今天來(lái)介紹下當(dāng)紅推理框架vLLM的核心技術(shù)PagedAttention。PagedAttention的設(shè)計(jì)靈感來(lái)自操作系統(tǒng)的虛擬內(nèi)存分頁(yè)管理技術(shù)。vLLM的論文是在假設(shè)讀者對(duì)這項(xiàng)分頁(yè)管理技術(shù)非常熟悉的情況下,對(duì)PagedAttention進(jìn)行介紹的,這對(duì)一些非計(jì)算機(jī)專業(yè)出身,或者對(duì)操作系統(tǒng)相關(guān)知識(shí)有所遺忘的讀者來(lái)說(shuō)并不友好。
因此,本文進(jìn)行介紹時(shí),會(huì)對(duì)照著操作系統(tǒng)的相關(guān)知識(shí),和大家一起來(lái)看vLLM是如何“一步步”從傳統(tǒng)方法進(jìn)化到PagedAttention的,同時(shí)本文會(huì)盡量將抽象的顯存優(yōu)化知識(shí)通過(guò)圖解的方式向大家說(shuō)明。
全文目錄如下:
一、LLM推理的兩階段
二、為KV cache分配存儲(chǔ)空間的傳統(tǒng)
原文鏈接:圖解當(dāng)紅推理框架vLLM的核心技術(shù)PagedAttention
聯(lián)系作者
文章來(lái)源:智猩猩AGI
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)