AIGC動態歡迎閱讀
原標題:從頭預訓練一只超迷你 LLaMA 3
關鍵字:模型,數據,知乎,侵權,初始化
文章來源:算法邦
內容字數:29538字
內容摘要:
直播預告 | 5月23日晚7點,「智猩猩機器人新青年講座」第6講正式開講,論文一作、清華大學在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進展與展望》,歡迎掃名~導讀本文來自知乎,作者為Xode。本文只做學術/技術分享,如有侵權,聯系刪文。
本文通過使用 Hugging Face 的 API 和 Trainer 來從頭預訓練一個超迷你版本的 LLaMA 3 模型,并嘗試復現微軟的 TinyStories 項目,本文將幫助你更深入地理解語言模型的訓練和遷移學習過程。
原文鏈接:https://zhuanlan.zhihu.com/p/695130168?這次打算用 Hugging Face 的 API 來寫一份預訓練大(小)模型的代碼,也就是用 Trainer 來做預訓練。由于只是想練習一下,因此打算選一個極小模型 + 小數據集。為了貼近主流,于是打算預訓練一個 LLaMA 3——不過是超迷你版本,大小僅不到 20M。
想起來曾經看到過的微軟的工作TinyStories,探索的是語言模型在多小的情況下還能流利地講故事,工作非常直白、有趣,剛好也契合我的練習想法,于是這次來
原文鏈接:從頭預訓練一只超迷你 LLaMA 3
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...