前谷歌科學家離職創業1年，自述訓練LLM卡在算力上！買卡就像中彩票，Karpathy轉贊

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：前谷歌科學家離職創業1年，自述訓練LLM卡在算力上！買卡就像中彩票，Karpathy轉贊
關鍵字：集群,模型,硬件,提供商,代碼
文章來源：新智元
內容字數：8977字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】一家大模型初創公司從創立到訓練出大模型，要克服怎樣的難題？前谷歌科學家離職后創業一年，發文自述算力是訓練大模型的難點。前谷歌大腦科學家Yi Tay去年3月離職后，創辦了一家初創公司。
創業一年，他發文表示「痛并快樂著」。
在這篇博文中，我討論了：
1. 在不同計算提供商中采購計算和差異的經驗。我們最大的發現/驚喜是差異超級不同，幾乎是人們可以獲得的「硬件彩票」！
2. 討論「野外」基礎設施/代碼，并過渡到我在谷歌的習慣
3. 訓練模型時的新思維方式。
在整個創業過程中，他認為最大的困難便是——算力稀缺、算力提供商差異巨大，讓大模型的訓練比預期要難得多。
對此，Yi Tay寫了一篇長文，自述了從0開始如何創辦一家公司，籌集資金、購買芯片，訓練出了能夠與Gemini pro/GPT 3.5，甚至超越其他LLM的模型。
Karpathy對此表示深刻地贊同：「這篇文章精彩地討論了一個鮮為人知的話題：訓練LLM的難點」。
在大公司維護計算集群的時候，隨著規模擴大，集群管理更像是生物學而非工程學。
工程師需要像「保姆」一樣密切監控訓練過程，關注關鍵指標，一旦出

原文鏈接：前谷歌科學家離職創業1年，自述訓練LLM卡在算力上！買卡就像中彩票，Karpathy轉贊