LLaMA開源大模型源碼分析!
AIGC動態(tài)歡迎閱讀
內容摘要:
01LLaMA-Model在transformers倉庫中可以看到llama的源碼,首先是LlamaModel類,繼承自PreTrainedModel,這個類是所有模型的基類,包含了一些通用的方法,比如保存模型、加載模型、初始化權重等。
繼承關系為:LlamaModel-> LlamaPreTrainedModel-> PreTrainedModel
LlamaConfig
LlamaConfig 中主要是定義一些參數,比如vocab_size、hidden_size、num_hidden_layers、num_attention_heads等。所有的參數有默認值,可以直接創(chuàng)建cofing就能用。
config = LlamaConfig()
LlamaModel 初始化
設置了模型的兩個屬性:padding_idx(用于指定填充標記的索引),vocab_size(詞匯表的大小)
初始化了模型的嵌入層、解碼器層、歸一化層
嵌入層(nn.Embedding):模型使用嵌入層將輸入的標記映射成密集的向量表示。
解碼器層(nn.ModuleList()):模型包含多個解碼器層,這些層都是由
原文鏈接:LLaMA開源大模型源碼分析!
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...