AIGC動態歡迎閱讀
內容摘要:
大會預告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導顧家遠,騰訊優圖實驗室天衍研究中心負責人吳賢,銀河通用機器人合伙人張直政,趣丸科技副總裁賈朔,曠視研究院高級研究員李華東已確認參會,將圍繞大模型、具身智能、AI視頻生成帶來分享,歡迎報名。01前言項目開始于2024年3月初,當時朋友搞到了一臺不知道能用多久的A100。這么棒的機器放著也是浪費,就琢磨著嘗試從零訓練一個小型號的LLM。其實在當時就有不少些這種“從零預訓練LLM”的開源項目了,但是大多訓練的數據量或者是模型都很小(幾塊4090+幾十G數據就能跑起來),并沒有暴露出一些工程上的問題,訓練細節也沒有分享的特別清晰。因此,我在制定訓練LLM計劃的時候有兩個目標:模型參數量和數據量不能特別的demo:參數量上B,數據量上T。
盡量詳細的分享訓練過程中的各種細節:讓沒有資源訓練的同學能夠了解到他們沒有機會從實踐得到的知識;讓有訓練資源的同學在復刻過程中少走彎路,以博客形式分享。
參考了TinyLlama項目的訓練時間,估計了一下大概可以使用T級別的數據訓練個1B大小的LLM(優先保證訓練的數據
原文鏈接:個人從零預訓練1B LLM心路歷程
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...