AIGC動態歡迎閱讀
內容摘要:
本文來源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload,由NVIDIA的高級解決方案架構師講述,感興趣的可以看原演講視頻:
https://www.youtube.com/watch?v=z2M8gKGYws4&list=PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l&index=23[1]
本文總結和整理下其描述的基于TRT-LLM的LLM推理流程。
010×10 推理以下是簡單的LLM推理流程(下圖中輸入 Write me a presentation… ),注意兩個事兒:
我們的輸入prompt是放在GPU中的,
然后output的時候,是一個一個出來的:LLM inference is hard,而且每次輸出一個token都會這個將這個token之前的輸入(也是tokens)全送進GPU再吐下一個token根據上述的LLM推理流程,很容易推理出:
輸入的prompt token數越多,LLM反應越慢,因為LLM要處理你輸入的prompt,這是要在G
原文鏈接:一起理解下LLM的推理流程
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...