「還是谷歌好」，離職創業一年，我才發現訓練大模型有這么多坑

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：「還是谷歌好」，離職創業一年，我才發現訓練大模型有這么多坑
關鍵字：集群,模型,硬件,提供商,問題
文章來源：機器之心
內容字數：9439字

內容摘要：

機器之心報道
編輯：蛋醬、小舟Karpathy：中肯的，一針見血的。
如何在不到一年的時間里創辦一家公司、籌集資金、購買芯片，并搭建出追趕 Gemini pro/GPT 3.5 的 LLM？
很多人都對構建基礎架構和訓練大語言模型和多模態模型感到好奇，但真正走完「從零開始」這一流程的人很少。我們普遍認為，儲備技術人才是前提，掌握核心算法是關鍵，但實際上，工程實踐中冒出來的挑戰，也實在令人頭疼。
一年前，乘著大模型的熱潮，Yi Tay 離開了工作 3 年多的谷歌，參與創辦了一家名為 Reka 的公司并擔任首席科學家，主攻大型語言模型。
在谷歌時，Yi Tay 參與過許多知名的大型語言模型和多模態模型工作，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。即使經驗如此深厚，他還是遇到了以往無法想象的困難。為了幫助更多創業者避雷，Yi Tay 在一篇博客中分享了自己踩過的那些「坑」。
「計算稀缺和不可靠的計算提供商使事情比預期困難得多，但我們憑借強大的技術實力渡過了難關。終于，我寫了這篇博文，揭示了其中的一些挑戰和經驗教訓。我希望這篇

原文鏈接：「還是谷歌好」，離職創業一年，我才發現訓練大模型有這么多坑