AIGC動態歡迎閱讀
原標題:【深度萬文】10 萬卡 H100 集群的盡頭……
關鍵字:網絡,集群,交換機,機架,節點
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
7月25日上午10點,中國科學技術大學與微軟亞洲研究院聯合培養博士生張博文將在智猩猩直播講解微軟亞洲研究院開源成果GaussianCube,主題為《結構化3DGS為高質量3D生成帶來新思路》。歡迎掃名~GPT-4 在約 2 萬塊 A100 上訓練 90-100 天,如果利用 10 萬卡的 H100 集群,則僅僅需要 4 天時間。微軟/OpenAI、Meta、xAI 都在集中建設 10 萬卡 H100 集群,單是硬件投入就高達 40 億美金,單集群就需要 150 MW 的功耗,每年的電力成本 1.239 億美金,約占硬件投入成本的 3%。
10 萬卡 H100 集群的盡頭還遠不是電力。在算力組網時,為了避免繳納更多的英偉達稅,越來越多的頭部客戶正在摒棄 Infiniband 方案,而選擇以太網方案。除了在初始硬件投入就能節約 4 億美金之外,每年還能進一步節約 400多萬美金的電費。
有人認為,自 GPT-4 發布以來,LLM 的能力便一直停滯不前。之所以如此,是因為沒有人能夠大規模地提高專用于單個模型訓練的算力。已發布的模型的體量與 GPT-4 大致相當(約 2×1025 FLOP
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...