vLLM vs TensorRT-LLM 性能對(duì)比測(cè)試,基于0910較新版本
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:vLLM vs TensorRT-LLM 性能對(duì)比測(cè)試,基于0910較新版本
關(guān)鍵字:吞吐量,騰訊,速率,框架,大小
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大會(huì)預(yù)告12月5日-6日,2024中國(guó)生成式AI大會(huì)(上海站)將舉辦。上海科大助理教授、博導(dǎo)顧家遠(yuǎn),騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢,銀河通用機(jī)器人合伙人張直政,趣丸科技副總裁賈朔,曠視研究院高級(jí)研究員李華東已確認(rèn)參會(huì),將圍繞大模型、具身智能、AI視頻生成帶來(lái)分享,歡迎報(bào)名。翻譯自:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-1-an-overall-evaluation-88f281bf01c7該文章測(cè)試了最新版(9.10)trt-llm和vllm的性能,不過(guò)文中沒(méi)有提到是否使用vllm在0.6.0版本更新的Multi-step Scheduling[1]。
vLLM 和 TensorRT-LLM 是我們熟知的大型語(yǔ)言模型(LLM)推理框架。**vLLM**[2] 是一個(gè)快速且易于使用的庫(kù),支持在多種設(shè)備上進(jìn)行 LLM 推理和服務(wù),包括 NVIDIA、AMD 和 Intel 的 GPU。相對(duì)地,**TensorRT-LLM**[3] 是一個(gè)高度優(yōu)化的工具箱,專門為加速 NVIDIA GPU 上的推理性
原文鏈接:vLLM vs TensorRT-LLM 性能對(duì)比測(cè)試,基于0910較新版本
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: