知乎高贊：從0到1做大語言模型Pretrain的經(jīng)驗

AIGC動態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動態(tài)歡迎閱讀

原標題：知乎高贊：從0到1做大語言模型Pretrain的經(jīng)驗
關(guān)鍵字：報告,模型,數(shù)據(jù),知乎,工作
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

開講預(yù)約導(dǎo)讀原文來自知乎，作者為ybp，標題為《LLM訓練-pretrain》。作者詳細介紹了如何從零到一進行 pretrain 工作，分為背景篇、數(shù)據(jù)篇、訓練篇、評估篇和總結(jié)篇。原文地址：https://zhuanlan.zhihu.com/p/718354385
本文只做學術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。這篇文章介紹下如何從零到一進行 pretrain 工作。
類似的文章應(yīng)該有很多，不同的地方可能在于，我并不會去分析 pretrain 階段的核心技術(shù)，而是用比較樸素的語言來描述這個大工程的每一塊磚瓦。我的介紹偏方一些，主要目的是普及每個環(huán)節(jié)有哪些必須要做的瑣碎工作、有哪些坑、以及有哪些避坑技巧。為了避免老板開了我，文中有一些內(nèi)容的具體做法不會展開細說，請大家見諒。作為替代，我會推薦一些比較好的開源做法。
01背景篇時至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。無論是個人還是大廠，都很難訓出同 size 下更優(yōu)秀的模型，大模型 pretrain 階段全面擁抱開源的日子感覺不太遠了。那么，在這個時代大背景下，自研 pret

原文鏈接：知乎高贊：從0到1做大語言模型Pretrain的經(jīng)驗