Meta、BAT、字節(jié)、零一萬(wàn)物萬(wàn)卡集群構(gòu)建匯總
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta、BAT、字節(jié)、零一萬(wàn)物萬(wàn)卡集群構(gòu)建匯總
關(guān)鍵字:騰訊,交換機(jī),集群,網(wǎng)絡(luò),解讀
文章來(lái)源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
生成式AI時(shí)代最火AI芯片峰會(huì)下月來(lái)襲!9月6-7日,智猩猩發(fā)起主辦的2024全球AI芯片峰會(huì)將在北京盛大舉行。峰會(huì)設(shè)有開(kāi)幕式、數(shù)據(jù)中心AI芯片專場(chǎng)、邊緣/端側(cè)AI芯片專場(chǎng)、智算集群技術(shù)論壇等7大板塊。目前,來(lái)自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵(lì)飛、中國(guó)移動(dòng)研究院、北極雄芯等40+企業(yè)的嘉賓已確認(rèn)演講或討論。掃碼申請(qǐng)免費(fèi)票或購(gòu)票參會(huì)~01Meta RoCE網(wǎng)絡(luò)Meta RoCE論文網(wǎng)絡(luò)拓?fù)?br />基于RoCE的AI集群由24K個(gè)GPU組成,通過(guò)一個(gè)三層Clos網(wǎng)絡(luò)連接。
在底層,每個(gè)機(jī)架有16個(gè)GPU分布在兩臺(tái)服務(wù)器上,并通過(guò)一個(gè)Minipack2 ToR交換機(jī)連接。
在中層,192個(gè)這樣的機(jī)架通過(guò)集換機(jī)連接,形成一個(gè)擁有3,072個(gè)GPU的集群,具有完整的雙切帶寬,確保沒(méi)有過(guò)訂閱。
在頂層,同一數(shù)據(jù)中心大樓內(nèi)的8個(gè)這樣的集群通過(guò)聚合交換機(jī)連接,形成一個(gè)24K GPU的集群。
聚合層的網(wǎng)絡(luò)連接沒(méi)有保持完整的雙切帶寬,而是有一個(gè)1:7的過(guò)訂閱比率。LLama3.1模型4D并行算法和訓(xùn)練作業(yè)調(diào)度程序都針對(duì)網(wǎng)絡(luò)拓?fù)溥M(jìn)行了優(yōu)化,以達(dá)到最小化跨集群
原文鏈接:Meta、BAT、字節(jié)、零一萬(wàn)物萬(wàn)卡集群構(gòu)建匯總
聯(lián)系作者
文章來(lái)源:智猩猩AGI
作者微信:
作者簡(jiǎn)介: