AIGC動態歡迎閱讀
原標題:有錢買卡還不夠,10萬卡H100集群有多難搭?一文解析算力集群技術要點
關鍵字:集群,交換機,網絡,機架,節點
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】在英偉達市值猛漲、各家科技巨頭囤芯片的熱潮中,我們往往會忽視GPU芯片是如何轉變為數據中心算力的。最近,一篇SemiAnalysis的技術文章就深入解讀了10萬卡H100集群的構建過程。如火如荼的AI競爭中,「算力之戰」同樣熱火朝天。
包括但不限于OpenAI、微軟、xAI和Meta在內的多個頭部公司都在爭相建立超過10萬卡的GPU集群,在這個規模上,僅僅是服務器的成本就超過40億美元,還要受到數據中心容量和電力不足等多項因素的限制。
我們可以做一個簡單的估算,一個10萬卡集群每年耗電量約為1.59太瓦時(terawatt·h,即10e9千瓦時),按照美國電力的標準費率0.78美元/千瓦時,每年的用電成本就達到了1.24億美元。
為了說明10萬個GPU集群的強大計算能力,OpenAI在訓練GPT-4時使用了大約2.15e25 BF16 FLOP(21.5百萬億ExaFLOP),在大約2萬個A100上進行了90到100天的訓練,峰值吞吐量只有6.28 ExaFLOPS。
若使用10萬個H100代替A100,峰值將飆升至198/99 FP8/FP
原文鏈接:有錢買卡還不夠,10萬卡H100集群有多難搭?一文解析算力集群技術要點
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...