從零訓(xùn)練的 1B 以下小模型匯總
AIGC動態(tài)歡迎閱讀
原標(biāo)題:從零訓(xùn)練的 1B 以下小模型匯總
關(guān)鍵字:知乎,解讀,模型,侵權(quán),數(shù)據(jù)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
導(dǎo)讀本文來自知乎,作者為Angry Bugs。出于學(xué)術(shù)/技術(shù)分享進行轉(zhuǎn)載,如有侵權(quán),聯(lián)系刪文。
本文是作者自己從頭訓(xùn)練一個1B以下的模型的相關(guān)技巧和資源的匯總。
原文鏈接:https://zhuanlan.zhihu.com/p/693252663最好的學(xué)習(xí)方式莫過于自己從頭做一遍。學(xué)模型的相關(guān)知識以來,一直都想從頭自己訓(xùn)練一個 1B 以下的模型,感覺這樣才算是真的學(xué)過了。不過以手頭的資源,也只能玩玩兒迷你的小模型了。最近在網(wǎng)上搜了不少資料,主要是 GitHub 上的倉庫和 Arxiv 上的 paper,順便記錄在這里。
https://github.com/karpathy/nanoGPT/
nanoGPT 是 karpathy 大神寫的 GPT-2 最小實現(xiàn)。麻雀雖小,五臟俱全。GPT-2 是大模型的鼻祖,很多論文都以 nanoGPT 為基礎(chǔ)魔改或者作為 baseline。nanoGPT 共有 0.1B 到 1.5B 四個大小不同的版本。
訓(xùn)練 GPT-2 的文章有很多,雖然有些比較老的,但是也值得參考,列舉一些我覺得不錯的:
https://www.kaggle.com/co
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。