三個(gè)月建成“世界最大”Nvidia GPU 計(jì)算集群，馬斯克：不夠，還要再加10萬個(gè)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：三個(gè)月建成“世界最大”Nvidia GPU 計(jì)算集群，馬斯克：不夠，還要再加10萬個(gè)
關(guān)鍵字：公告,模型,人工智能,芯片,工作
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

整理 | 褚杏娟
9 月 2 日，馬斯克發(fā)文稱，其人工智能公司 xAI 的團(tuán)隊(duì)已經(jīng)上線了一臺(tái)被稱為“Colossus”的訓(xùn)練集群，總共有 100000 個(gè)英偉達(dá)的 H100 GPU。
馬斯克表示，他的團(tuán)隊(duì)花了 122 天才完成 Colossus 的上線過程。由于 xAI 在 6 月份才選定孟菲斯作為其所在地，因此 Colossus 的部署速度可以說是非常快的。馬斯克表示，在接下來的幾個(gè)月里，Colossus 的規(guī)模將擴(kuò)大一倍，達(dá)到 200,000 個(gè) GPU，其中 5 萬個(gè)是更為先進(jìn)的 H200。
一位 X 用戶指出，這一發(fā)展的實(shí)際規(guī)模超過了迄今為止發(fā)布的每個(gè)主要模型。相比之下，OpenAI 最強(qiáng)大的模型才使用了 80000 個(gè) GPU。
Nvidia 的 H200 是市場上最搶手的芯片之一，盡管最近被該公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下，H200 配備 141 GB 的 HBM3E 內(nèi)存和 4.8 TB/s 的帶寬，Blackwell 的最高容量比 H200 高出 36.2%，總帶寬高出 66.7%。
Nvidia 在 Colossus

原文鏈接：三個(gè)月建成“世界最大”Nvidia GPU 計(jì)算集群，馬斯克：不夠，還要再加10萬個(gè)