LLaMA開源大模型源碼分析!

AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLaMA開源大模型源碼分析!
關(guān)鍵字:張量,模型,初始化,代碼,權(quán)重
文章來源:算法邦
內(nèi)容字?jǐn)?shù):17320字
內(nèi)容摘要:
01LLaMA-Model在transformers倉庫中可以看到llama的源碼,首先是LlamaModel類,繼承自PreTrainedModel,這個類是所有模型的基類,包含了一些通用的方法,比如保存模型、加載模型、初始化權(quán)重等。
繼承關(guān)系為:LlamaModel-> LlamaPreTrainedModel-> PreTrainedModel
LlamaConfig
LlamaConfig 中主要是定義一些參數(shù),比如vocab_size、hidden_size、num_hidden_layers、num_attention_heads等。所有的參數(shù)有默認(rèn)值,可以直接創(chuàng)建cofing就能用。
config = LlamaConfig()
LlamaModel 初始化
設(shè)置了模型的兩個屬性:padding_idx(用于指定填充標(biāo)記的索引),vocab_size(詞匯表的大小)
初始化了模型的嵌入層、解碼器層、歸一化層
嵌入層(nn.Embedding):模型使用嵌入層將輸入的標(biāo)記映射成密集的向量表示。
解碼器層(nn.ModuleList()):模型包含多個解碼器層,這些層都是由
原文鏈接:LLaMA開源大模型源碼分析!
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計(jì)算機(jī)視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會。

粵公網(wǎng)安備 44011502001135號