AIGC動態歡迎閱讀
原標題:前谷歌科學家離職創業1年,自述訓練LLM卡在算力上!買卡就像中彩票,Karpathy轉贊
關鍵字:集群,模型,硬件,提供商,代碼
文章來源:新智元
內容字數:8977字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】一家大模型初創公司從創立到訓練出大模型,要克服怎樣的難題?前谷歌科學家離職后創業一年,發文自述算力是訓練大模型的難點。前谷歌大腦科學家Yi Tay去年3月離職后,創辦了一家初創公司。
創業一年,他發文表示「痛并快樂著」。
在這篇博文中,我討論了:
1. 在不同計算提供商中采購計算和差異的經驗。我們最大的發現/驚喜是差異超級不同,幾乎是人們可以獲得的「硬件彩票」!
2. 討論「野外」基礎設施/代碼,并過渡到我在谷歌的習慣
3. 訓練模型時的新思維方式。
在整個創業過程中,他認為最大的困難便是——算力稀缺、算力提供商差異巨大,讓大模型的訓練比預期要難得多。
對此,Yi Tay寫了一篇長文,自述了從0開始如何創辦一家公司,籌集資金、購買芯片,訓練出了能夠與Gemini pro/GPT 3.5,甚至超越其他LLM的模型。
Karpathy對此表示深刻地贊同:「這篇文章精彩地討論了一個鮮為人知的話題:訓練LLM的難點」。
在大公司維護計算集群的時候,隨著規模擴大,集群管理更像是生物學而非工程學。
工程師需要像「保姆」一樣密切監控訓練過程,關注關鍵指標,一旦出
原文鏈接:前谷歌科學家離職創業1年,自述訓練LLM卡在算力上!買卡就像中彩票,Karpathy轉贊
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...