AIGC動態歡迎閱讀
內容摘要:
大模型時代最火AI芯片峰會來啦?。?月6-7日,由芯東西聯合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群等7大板塊。目前,AMD人工智能事業部高級總監王宏強,云天勵飛副總裁、芯片業務線總經理李愛軍,清華大學交叉信息研究院助理教授、北極雄芯創始人馬愷聲等25+嘉賓/企業已確認出席并演講。掃名~摘要
分享了構建 AI 2.0時代的萬卡集群的經驗和成果。包括大模型訓練進展、主網與存儲方案、調度監控、產品設計和展示等方面。
存在問題
基礎設施建設:需要構建支撐大模型訓練的基礎設施,高功率需求 、冷卻效率、計算存儲通信網絡等高效率。
電力能源:GPU 服務器高功率需求與傳統數據中心電力供應不匹配。
大模型訓練需求:支持千億到萬億AI 模型訓練加速。
網絡拓撲設計優化:需要優化網絡以降低延遲并提高效率。
網絡協議選型:高性能計算需高吞吐、低延遲網絡
存儲解決方案:需要高性能和高可用性的存儲系統。
調度系統智能化:需要無人值守的智能調度系統。
可觀測性:需要對集群狀態進行實時監控和故障預測。
解決方案
基礎設施:構建了世界一流的 基礎設施,包括選址、電力供應、數
原文鏈接:零一萬物面向萬卡集群的AI基礎設施建設
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...