有錢買卡還不夠，10萬卡H100集群有多難搭？一文解析算力集群技術要點

AIGC動態歡迎閱讀

原標題：有錢買卡還不夠，10萬卡H100集群有多難搭？一文解析算力集群技術要點
關鍵字：集群,交換機,網絡,機架,節點
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊好困
【新智元導讀】在英偉達市值猛漲、各家科技巨頭囤芯片的熱潮中，我們往往會忽視GPU芯片是如何轉變為數據中心算力的。最近，一篇SemiAnalysis的技術文章就深入解讀了10萬卡H100集群的構建過程。如火如荼的AI競爭中，「算力之戰」同樣熱火朝天。
包括但不限于OpenAI、微軟、xAI和Meta在內的多個頭部公司都在爭相建立超過10萬卡的GPU集群，在這個規模上，僅僅是服務器的成本就超過40億美元，還要受到數據中心容量和電力不足等多項因素的限制。
我們可以做一個簡單的估算，一個10萬卡集群每年耗電量約為1.59太瓦時（terawatt·h，即10e9千瓦時），按照美國電力的標準費率0.78美元/千瓦時，每年的用電成本就達到了1.24億美元。
為了說明10萬個GPU集群的強大計算能力，OpenAI在訓練GPT-4時使用了大約2.15e25 BF16 FLOP（21.5百萬億ExaFLOP），在大約2萬個A100上進行了90到100天的訓練，峰值吞吐量只有6.28 ExaFLOPS。
若使用10萬個H100代替A100，峰值將飆升至198/99 FP8/FP

原文鏈接：有錢買卡還不夠，10萬卡H100集群有多難搭？一文解析算力集群技術要點