AIGC動態歡迎閱讀
原標題:TensorRT-LLM保姆級教程(一)-快速入門
關鍵字:模型,權重,性能,參數,張量
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
隨著大模型的爆火,投入到生產環境的模型參數量規模也變得越來越大(從數十億參數到千億參數規模),從而導致大模型的推理成本急劇增加。因此,市面上也出現了很多的推理框架,用于降低模型推理延遲以及提升模型吞吐量。
本系列將針對TensorRT-LLM推理進行講解。本文為該系列第一篇,將簡要概述TensorRT-LLM的基本特性。
01TensorRT-LLM 誕生的背景第一、大模型參數量大,推理成本高。以10B參數規模的大模型為例,使用FP16數據類型進行部署至少需要20GB以上(模型權重+KV緩存等)。
第二、純TensorRT使用較復雜,ONNX存在內存限制。深度學習模型通常使用各種框架(如PyTorch、TensorFlow、Keras等)進行訓練和部署,而每個框架都有自己的模型表示和存儲格式。因此,開發者通常使用 ONNX 解決深度學習模型在不同框架之間的互操作性問題。比如:TensorRT 就需要先將 PyTorch 模型轉成 ONNX,然后再將 ONNX 轉成 TensorRT。除此之外,一般還需要做數據對齊,因此需要編寫 plugin,通過修改 ONNX 來適配 TensorRT
原文鏈接:TensorRT-LLM保姆級教程(一)-快速入門
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...