TensorRT-LLM保姆級教程（一）-快速入門

AIGC動態(tài)歡迎閱讀

原標(biāo)題：TensorRT-LLM保姆級教程（一）-快速入門
關(guān)鍵字：模型,權(quán)重,性能,參數(shù),張量
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

隨著大模型的爆火，投入到生產(chǎn)環(huán)境的模型參數(shù)量規(guī)模也變得越來越大（從數(shù)十億參數(shù)到千億參數(shù)規(guī)模），從而導(dǎo)致大模型的推理成本急劇增加。因此，市面上也出現(xiàn)了很多的推理框架，用于降低模型推理延遲以及提升模型吞吐量。
本系列將針對TensorRT-LLM推理進(jìn)行講解。本文為該系列第一篇，將簡要概述TensorRT-LLM的基本特性。
01TensorRT-LLM 誕生的背景第一、大模型參數(shù)量大，推理成本高。以10B參數(shù)規(guī)模的大模型為例，使用FP16數(shù)據(jù)類型進(jìn)行部署至少需要20GB以上（模型權(quán)重+KV緩存等）。
第二、純TensorRT使用較復(fù)雜，ONNX存在內(nèi)存限制。深度學(xué)習(xí)模型通常使用各種框架（如PyTorch、TensorFlow、Keras等）進(jìn)行訓(xùn)練和部署，而每個框架都有自己的模型表示和存儲格式。因此，開發(fā)者通常使用 ONNX 解決深度學(xué)習(xí)模型在不同框架之間的互操作性問題。比如：TensorRT 就需要先將 PyTorch 模型轉(zhuǎn)成 ONNX，然后再將 ONNX 轉(zhuǎn)成 TensorRT。除此之外，一般還需要做數(shù)據(jù)對齊，因此需要編寫 plugin，通過修改 ONNX 來適配 TensorRT

原文鏈接：TensorRT-LLM保姆級教程（一）-快速入門