知乎高贊:從0到1做大語言模型Pretrain的經(jīng)驗
AIGC動態(tài)歡迎閱讀
原標題:知乎高贊:從0到1做大語言模型Pretrain的經(jīng)驗
關(guān)鍵字:報告,模型,數(shù)據(jù),知乎,工作
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
開講預(yù)約導(dǎo)讀原文來自知乎,作者為ybp,標題為《LLM訓練-pretrain》。作者詳細介紹了如何從零到一進行 pretrain 工作,分為背景篇、數(shù)據(jù)篇、訓練篇、評估篇和總結(jié)篇。原文地址:https://zhuanlan.zhihu.com/p/718354385
本文只做學術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。這篇文章介紹下如何從零到一進行 pretrain 工作。
類似的文章應(yīng)該有很多,不同的地方可能在于,我并不會去分析 pretrain 階段的核心技術(shù),而是用比較樸素的語言來描述這個大工程的每一塊磚瓦。我的介紹偏方一些,主要目的是普及每個環(huán)節(jié)有哪些必須要做的瑣碎工作、有哪些坑、以及有哪些避坑技巧。為了避免老板開了我,文中有一些內(nèi)容的具體做法不會展開細說,請大家見諒。作為替代,我會推薦一些比較好的開源做法。
01背景篇時至今日,dense 模型有 qwen,MOE 模型有 deepseek,小尺寸模型有 minicpm。無論是個人還是大廠,都很難訓出同 size 下更優(yōu)秀的模型,大模型 pretrain 階段全面擁抱開源的日子感覺不太遠了。那么,在這個時代大背景下,自研 pret
原文鏈接:知乎高贊:從0到1做大語言模型Pretrain的經(jīng)驗
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...