AIGC動態歡迎閱讀
原標題:賈揚清點贊:3K star量的SGLang上新,加速Llama 405B推理秒殺vLLM、TensorRT-LLM
關鍵字:模型,報告,基準,吞吐量,離線
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:張倩用來運行 Llama 3 405B 優勢明顯。
最近,Meta 開源了最新的 405B 模型(Llama 3.1 405B),把開源模型的性能拉到了新高度。由于模型參數量很大,很多開發者都關心一個問題:怎么提高模型的推理速度?
時隔才兩天,LMSYS Org 團隊就出手了,推出了全新的 SGLang Runtime v0.2。這是一個用于 LLM 和 VLM 的通用服務引擎。在運行 Llama 3.1 405B 時,它的吞吐量和延遲表現都優于 vLLM 和 TensorRT-LLM。
在某些情況下(運行 Llama 系列模型),它的吞吐量甚至能達到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。LMSYS Org 團隊是一個由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內基梅隆大學的學生與教職員工共同組建的公開性質的研究團體。他們開發的大模型評測平臺 ——Chatbot Arena 已經成為檢驗大模型能力的重要平臺,也被認為是一種相對公平的評測方式。
SGLang 是該團隊開發的一個用于大型語言模型和視覺語言模型的快速服務框架,于今年 1
原文鏈接:賈揚清點贊:3K star量的SGLang上新,加速Llama 405B推理秒殺vLLM、TensorRT-LLM
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...