vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
關(guān)鍵字:模型,緩存,性能,前綴,內(nèi)存
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大會(huì)預(yù)告12月5日-6日,2024中國生成式AI大會(huì)(上海站)舉辦。將邀請(qǐng)50+位嘉賓圍繞大模型、AI Infra、端側(cè)生成式AI、AI視頻生成和具身智能等議題進(jìn)行同臺(tái)分享和討論。歡迎報(bào)名或購票。本文來自The State of vLLM | Ray Summit 2024 && RoadMap的分享,帶大家一起回顧下vllm發(fā)展歷史、過去一年的發(fā)展及接下來Q4規(guī)劃。感興趣的也可以查看原視頻:https://www.youtube.com/watch?v=4HPRf9nDZ6Q[1]
01過去一年vLLM的工作內(nèi)容記得vLLM在九月初更新了一個(gè)版本[2],性能有了明顯的提升(支持了multi step,因?yàn)闇p少了CPU overhead,會(huì)對(duì)吞吐會(huì)有提升,但是帶來的副作用是TTFT和ITL會(huì)變大),某些場景確實(shí)帶來了收益。
vLLM在2024年更新了很多內(nèi)容~首先是模型支持,支持幾乎所有的llm和vlm模型且效率非常高,這點(diǎn)確實(shí)要比TRT-LLM支持更快更方便,涉及到底層改動(dòng)支持的模型,TRT-LLM因?yàn)榈讓酉拗浦荒芴醾€(gè)issue等官方支持。而vLLM就很方便,目前vLLM支持的模型有
原文鏈接:vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: