【深度萬(wàn)文】10 萬(wàn)卡 H100 集群的盡頭……

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:【深度萬(wàn)文】10 萬(wàn)卡 H100 集群的盡頭……
關(guān)鍵字:網(wǎng)絡(luò),集群,交換機(jī),機(jī)架,節(jié)點(diǎn)
文章來(lái)源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
7月25日上午10點(diǎn),中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院聯(lián)合培養(yǎng)博士生張博文將在智猩猩直播講解微軟亞洲研究院開(kāi)源成果GaussianCube,主題為《結(jié)構(gòu)化3DGS為高質(zhì)量3D生成帶來(lái)新思路》。歡迎掃名~GPT-4 在約 2 萬(wàn)塊 A100 上訓(xùn)練 90-100 天,如果利用 10 萬(wàn)卡的 H100 集群,則僅僅需要 4 天時(shí)間。微軟/OpenAI、Meta、xAI 都在集中建設(shè) 10 萬(wàn)卡 H100 集群,單是硬件投入就高達(dá) 40 億美金,單集群就需要 150 MW 的功耗,每年的電力成本 1.239 億美金,約占硬件投入成本的 3%。
10 萬(wàn)卡 H100 集群的盡頭還遠(yuǎn)不是電力。在算力組網(wǎng)時(shí),為了避免繳納更多的英偉達(dá)稅,越來(lái)越多的頭部客戶正在摒棄 Infiniband 方案,而選擇以太網(wǎng)方案。除了在初始硬件投入就能節(jié)約 4 億美金之外,每年還能進(jìn)一步節(jié)約 400多萬(wàn)美金的電費(fèi)。
有人認(rèn)為,自 GPT-4 發(fā)布以來(lái),LLM 的能力便一直停滯不前。之所以如此,是因?yàn)闆](méi)有人能夠大規(guī)模地提高專用于單個(gè)模型訓(xùn)練的算力。已發(fā)布的模型的體量與 GPT-4 大致相當(dāng)(約 2×1025 FLOP
原文鏈接:【深度萬(wàn)文】10 萬(wàn)卡 H100 集群的盡頭……
聯(lián)系作者
文章來(lái)源:智猩猩AGI
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)