大模型筆記！以LLAMA為例，快速入門LLM的推理過程

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：大模型筆記！以LLAMA為例，快速入門LLM的推理過程
關鍵字：模型,知乎,分詞,注意力,上下文
文章來源：算法邦
內容字數：38264字

內容摘要：

直播預告 | 下周一晚7點，「自動駕駛新青年講座」第35講正式開講，LMDrive一作、香港中文大學MMLab在讀博士邵昊將主講《LMDrive：大語言模型加持的閉環端到端自動駕駛框架》，歡迎掃名~本文借助llama這個模型快速入門LLM的推理過程，很多技術細節都是通用的，也適合其他的LLM。
這篇也算是總結的性質，僅需要的知識點都列出來，簡單介紹一番。可能說的不夠詳細，想看具體細節的小伙伴可參考文中引用的相關詳細文章。
本篇也可以作為CV快速入門NLP簡易指南。當然只是推理哈，不涉及到訓練，僅是從部署的角度考慮這個模型，如對文中內容有疑問，歡迎討論。
01什么是LLMllama是LLM（LLM指大語言模型）模型的一種結構，llama這種模型的任務就是在閱讀前n個單詞后預測句子中下一個單詞，輸出取決于過去和現在輸入，與未來無關。
過程大概是這樣，每次輸入模型會帶上上一次輸出的結果（不同于CV模型，CV模型輸入只需要一次即可，一次推理即可得到結果）：
LLM-生成
一般來說，LLM模型主要由兩個塊組成：
編碼器（左側）：編碼器接收輸入并構建其表示形式（特征）。這意味著該模型被優化為從

原文鏈接：大模型筆記！以LLAMA為例，快速入門LLM的推理過程