vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
關(guān)鍵字:模型,緩存,性能,前綴,內(nèi)存
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大會預(yù)告12月5日-6日,2024中國生成式AI大會(上海站)舉辦。將邀請50+位嘉賓圍繞大模型、AI Infra、端側(cè)生成式AI、AI視頻生成和具身智能等議題進(jìn)行同臺分享和討論。歡迎報名或購票。本文來自The State of vLLM | Ray Summit 2024 && RoadMap的分享,帶大家一起回顧下vllm發(fā)展歷史、過去一年的發(fā)展及接下來Q4規(guī)劃。感興趣的也可以查看原視頻:https://www.youtube.com/watch?v=4HPRf9nDZ6Q[1]
01過去一年vLLM的工作內(nèi)容記得vLLM在九月初更新了一個版本[2],性能有了明顯的提升(支持了multi step,因?yàn)闇p少了CPU overhead,會對吞吐會有提升,但是帶來的副作用是TTFT和ITL會變大),某些場景確實(shí)帶來了收益。
vLLM在2024年更新了很多內(nèi)容~首先是模型支持,支持幾乎所有的llm和vlm模型且效率非常高,這點(diǎn)確實(shí)要比TRT-LLM支持更快更方便,涉及到底層改動支持的模型,TRT-LLM因?yàn)榈讓酉拗浦荒芴醾€issue等官方支持。而vLLM就很方便,目前vLLM支持的模型有
原文鏈接:vLLM這一年的新特性以及后續(xù)規(guī)劃(總結(jié)版!)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...