AIGC動態歡迎閱讀
原標題:網絡架構如何支持超萬卡的大規模 AI 訓練?
關鍵字:網絡,集群,模型,架構,阿里
文章來源:AI前線
內容字數:0字
內容摘要:
演講嘉賓 | 席永青
AI 訓練場景的算力 Scaling 核心是網絡,依賴于大規模、高性能的數據中心網絡集群來實現算力的規模擴展,為此,阿里云設計了 HPN7.0 架構系統,基于 Ethernet 來構建超大規模、極致性能的網絡互聯。
本文整理自阿里巴巴資深網絡架構師席永青在 AICon 2024 北京《大模型基礎設施構建》專題的演講“網絡驅動大規模 AI 訓練 – 阿里云可預期網絡 HPN 7.0 架構”,內容經 InfoQ 進行不改變原意的編輯。在 6 月 14-15 日即將舉辦的 ArchSummit 深圳上,InfoQ 策劃了《智算平臺建設與應用實踐》和《大模型基礎框架》專題,將邀請業內專家進一步深入分享企業在大模型基礎層面的建設實踐。目前,大會議程已全部上線,感興趣的同學請鎖定大會官網站:https://archsummit.infoq.cn/2024/shenzhen/schedule
大家好,我是席永青,來自阿里云。阿里云的 PAI 靈駿想必大家都熟悉,已經是 AI 領域的標桿算力平臺,服務了眾多知名的 AI 大模型公司。我有幸負責靈駿智算集群網絡架構設計。今天非常高興
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...