AIGC動態歡迎閱讀
原標題:知乎高贊:從0到1做大語言模型Pretrain的經驗
關鍵字:報告,模型,數據,知乎,工作
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
開講預約導讀原文來自知乎,作者為ybp,標題為《LLM訓練-pretrain》。作者詳細介紹了如何從零到一進行 pretrain 工作,分為背景篇、數據篇、訓練篇、評估篇和總結篇。原文地址:https://zhuanlan.zhihu.com/p/718354385
本文只做學術/技術分享,如有侵權,聯系刪文。這篇文章介紹下如何從零到一進行 pretrain 工作。
類似的文章應該有很多,不同的地方可能在于,我并不會去分析 pretrain 階段的核心技術,而是用比較樸素的語言來描述這個大工程的每一塊磚瓦。我的介紹偏方一些,主要目的是普及每個環節有哪些必須要做的瑣碎工作、有哪些坑、以及有哪些避坑技巧。為了避免老板開了我,文中有一些內容的具體做法不會展開細說,請大家見諒。作為替代,我會推薦一些比較好的開源做法。
01背景篇時至今日,dense 模型有 qwen,MOE 模型有 deepseek,小尺寸模型有 minicpm。無論是個人還是大廠,都很難訓出同 size 下更優秀的模型,大模型 pretrain 階段全面擁抱開源的日子感覺不太遠了。那么,在這個時代大背景下,自研 pret
原文鏈接:知乎高贊:從0到1做大語言模型Pretrain的經驗
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...