
AIGC動態歡迎閱讀
內容摘要:
導讀本文來自知乎,作者為Angry Bugs。出于學術/技術分享進行轉載,如有侵權,聯系刪文。
本文是作者自己從頭訓練一個1B以下的模型的相關技巧和資源的匯總。
原文鏈接:https://zhuanlan.zhihu.com/p/693252663最好的學習方式莫過于自己從頭做一遍。學模型的相關知識以來,一直都想從頭自己訓練一個 1B 以下的模型,感覺這樣才算是真的學過了。不過以手頭的資源,也只能玩玩兒迷你的小模型了。最近在網上搜了不少資料,主要是 GitHub 上的倉庫和 Arxiv 上的 paper,順便記錄在這里。
https://github.com/karpathy/nanoGPT/
nanoGPT 是 karpathy 大神寫的 GPT-2 最小實現。麻雀雖小,五臟俱全。GPT-2 是大模型的鼻祖,很多論文都以 nanoGPT 為基礎魔改或者作為 baseline。nanoGPT 共有 0.1B 到 1.5B 四個大小不同的版本。
訓練 GPT-2 的文章有很多,雖然有些比較老的,但是也值得參考,列舉一些我覺得不錯的:
https://www.kaggle.com/co
原文鏈接:從零訓練的 1B 以下小模型匯總
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號