一起理解下LLM的推理流程
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一起理解下LLM的推理流程
關(guān)鍵字:階段,模型,顯存,可能會(huì),開(kāi)銷
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
本文來(lái)源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload,由NVIDIA的高級(jí)解決方案架構(gòu)師講述,感興趣的可以看原演講視頻:
https://www.youtube.com/watch?v=z2M8gKGYws4&list=PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l&index=23[1]
本文總結(jié)和整理下其描述的基于TRT-LLM的LLM推理流程。
010×10 推理以下是簡(jiǎn)單的LLM推理流程(下圖中輸入 Write me a presentation… ),注意兩個(gè)事兒:
我們的輸入prompt是放在GPU中的,
然后output的時(shí)候,是一個(gè)一個(gè)出來(lái)的:LLM inference is hard,而且每次輸出一個(gè)token都會(huì)這個(gè)將這個(gè)token之前的輸入(也是tokens)全送進(jìn)GPU再吐下一個(gè)token根據(jù)上述的LLM推理流程,很容易推理出:
輸入的prompt token數(shù)越多,LLM反應(yīng)越慢,因?yàn)長(zhǎng)LM要處理你輸入的prompt,這是要在G
原文鏈接:一起理解下LLM的推理流程
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...