AIGC動態歡迎閱讀
原標題:250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
關鍵字:向量,維度,注意力,權重,矩陣
文章來源:新智元
內容字數:25704字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】Llama 3發布一個月后,一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目,引起了開源社區的廣泛關注。代碼非常詳細地展現了Llama所使用的Transformer架構,甚至讓Andrej Karpathy親自下場「背書」。Llama系列作為為數不多的優質開源LLM,一直受到開發者們的追捧。在Hugging Face社區的文本生成模型中,幾乎是「霸榜」的存在。
就在520這天,一位名叫Nishant Aklecha的開發者在上宣布了自己的一個開源項目,名為「從頭開始實現Llama 3」。
這個項目詳細到什么程度呢——
矩陣乘法、注意力頭、位置編碼等模塊全部都拆開解釋。
而且項目全部用Jupyter Notebook寫成,小白都可以直接上手運行。
堪比哈佛NLP小組曾經出品的「The Annotated Transformer」。
https://nlp.seas.harvard.edu/annotated-transformer/
才一天多的時間,小哥發表的這篇已經有32萬次閱讀,甚至被Andrej Karpa
原文鏈接:250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...