AIGC動態歡迎閱讀
原標題:騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
關鍵字:華為,算子,騰訊,顯存,模型
文章來源:機器之心
內容字數:16971字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者袁鐿博士是騰訊公司專家工程師,負責無量系統和一念LLM等機器學習訓練和推理框架研發。
以 OpenAI 的 GPT 系列模型為代表的大語言模型(LLM)掀起了新一輪 AI 應用浪潮,但是 LLM 推理的高昂成本一直困擾著業務團隊。
騰訊 PCG 機器學習平臺中心自研了高性能 LLM 推理引擎:一念 LLM。在傳統的算子融合,ContinousBatching 等推理加速技術的基礎上,通過顯存優化,異步調度和計算復用等技術,在相同精度的推理中,一念 LLM 相比 vLLM,TensorRT-LLM 等著名開源框架的推理單價低 20%+。
另外,為了應對國外高端 GPU 卡供應不足的問題,一念 LLM 在高性能 LLM 推理框架領域第一次同時支持 Nvi
原文鏈接:騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...