一起理解下LLM的推理流程

AIGC動態歡迎閱讀

原標題：一起理解下LLM的推理流程
關鍵字：階段,模型,顯存,可能會,開銷
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

本文來源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload，由NVIDIA的高級解決方案架構師講述，感興趣的可以看原演講視頻：
https://www.youtube.com/watch?v=z2M8gKGYws4&list=PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l&index=23[1]
本文總結和整理下其描述的基于TRT-LLM的LLM推理流程。
010×10 推理以下是簡單的LLM推理流程（下圖中輸入 Write me a presentation… ），注意兩個事兒：
我們的輸入prompt是放在GPU中的，
然后output的時候，是一個一個出來的：LLM inference is hard，而且每次輸出一個token都會這個將這個token之前的輸入（也是tokens）全送進GPU再吐下一個token根據上述的LLM推理流程，很容易推理出：
輸入的prompt token數越多，LLM反應越慢，因為LLM要處理你輸入的prompt，這是要在G

原文鏈接：一起理解下LLM的推理流程

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

一起理解下LLM的推理流程

AIGC動態歡迎閱讀

內容摘要：

聯系作者

ChatGPT 的 AI 搜索正式上線！即將免費可用，實測后我們發現了這些細節

推理成本直降99%！百川智能「1+3」矩陣揭秘，兩張4090玩轉旗艦新模型

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

一起理解下LLM的推理流程

AIGC動態歡迎閱讀

內容摘要：

聯系作者

ChatGPT 的 AI 搜索正式上線！即將免費可用，實測后我們發現了這些細節

推理成本直降99%！百川智能「1+3」矩陣揭秘，兩張4090玩轉旗艦新模型

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

ChatGPT 的 AI 搜索正式上線！即將免費可用，實測后我們發現了這些細節

推理成本直降99%！百川智能「1+3」矩陣揭秘，兩張4090玩轉旗艦新模型