250行代碼從頭搭建Llama 3，GitHub一天4.6k星！Karpathy大贊

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：250行代碼從頭搭建Llama 3，GitHub一天4.6k星！Karpathy大贊
關鍵字：向量,維度,注意力,權重,矩陣
文章來源：新智元
內容字數：25704字

內容摘要：

新智元報道編輯：喬楊好困
【新智元導讀】Llama 3發布一個月后，一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目，引起了開源社區的廣泛關注。代碼非常詳細地展現了Llama所使用的Transformer架構，甚至讓Andrej Karpathy親自下場「背書」。Llama系列作為為數不多的優質開源LLM，一直受到開發者們的追捧。在Hugging Face社區的文本生成模型中，幾乎是「霸榜」的存在。
就在520這天，一位名叫Nishant Aklecha的開發者在上宣布了自己的一個開源項目，名為「從頭開始實現Llama 3」。
這個項目詳細到什么程度呢——
矩陣乘法、注意力頭、位置編碼等模塊全部都拆開解釋。
而且項目全部用Jupyter Notebook寫成，小白都可以直接上手運行。
堪比哈佛NLP小組曾經出品的「The Annotated Transformer」。
https://nlp.seas.harvard.edu/annotated-transformer/
才一天多的時間，小哥發表的這篇已經有32萬次閱讀，甚至被Andrej Karpa

原文鏈接：250行代碼從頭搭建Llama 3，GitHub一天4.6k星！Karpathy大贊