TensorRT-LLM保姆級教程(一)-快速入門
AIGC動態(tài)歡迎閱讀
原標(biāo)題:TensorRT-LLM保姆級教程(一)-快速入門
關(guān)鍵字:模型,權(quán)重,性能,參數(shù),張量
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
隨著大模型的爆火,投入到生產(chǎn)環(huán)境的模型參數(shù)量規(guī)模也變得越來越大(從數(shù)十億參數(shù)到千億參數(shù)規(guī)模),從而導(dǎo)致大模型的推理成本急劇增加。因此,市面上也出現(xiàn)了很多的推理框架,用于降低模型推理延遲以及提升模型吞吐量。
本系列將針對TensorRT-LLM推理進(jìn)行講解。本文為該系列第一篇,將簡要概述TensorRT-LLM的基本特性。
01TensorRT-LLM 誕生的背景第一、大模型參數(shù)量大,推理成本高。以10B參數(shù)規(guī)模的大模型為例,使用FP16數(shù)據(jù)類型進(jìn)行部署至少需要20GB以上(模型權(quán)重+KV緩存等)。
第二、純TensorRT使用較復(fù)雜,ONNX存在內(nèi)存限制。深度學(xué)習(xí)模型通常使用各種框架(如PyTorch、TensorFlow、Keras等)進(jìn)行訓(xùn)練和部署,而每個框架都有自己的模型表示和存儲格式。因此,開發(fā)者通常使用 ONNX 解決深度學(xué)習(xí)模型在不同框架之間的互操作性問題。比如:TensorRT 就需要先將 PyTorch 模型轉(zhuǎn)成 ONNX,然后再將 ONNX 轉(zhuǎn)成 TensorRT。除此之外,一般還需要做數(shù)據(jù)對齊,因此需要編寫 plugin,通過修改 ONNX 來適配 TensorRT
原文鏈接:TensorRT-LLM保姆級教程(一)-快速入門
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: