公開課預(yù)告:大模型時代的智算GPU集群|阿里云智能集團(tuán)智算集群產(chǎn)品專家陳祎主講
智算集群已成為大模型基建軍備競賽的標(biāo)配。在大模型訓(xùn)練場景下,隨著模型參數(shù)規(guī)模從千億向萬億邁進(jìn),算力需求激增。同時,隨著大模型在不同領(lǐng)域的應(yīng)用落地,推理算力需求也迎來爆發(fā)式增長。據(jù)中信建設(shè)證券數(shù)據(jù)顯示,2024年至2027年全球大模型推理的峰值算力需求量的年復(fù)合增長率為113%,遠(yuǎn)高于訓(xùn)練的78%。為了應(yīng)對不斷增長的算力需求,全球各地智算集群建設(shè)正在如火如荼地進(jìn)行之中,且規(guī)模也從早期的千卡、萬卡快速增長到十萬卡,甚至向百萬卡級別發(fā)展。但是,集群規(guī)模的線性擴(kuò)展并不直接等同于算力的線性提升。智算集群要發(fā)揮出極致有效的算力,需要從卡間和節(jié)點間的互聯(lián)網(wǎng)絡(luò)、軟硬件適配、海量數(shù)據(jù)處理策略、運維保障等多個方面進(jìn)行協(xié)同優(yōu)化。12月13日19:30,智猩猩智算集群公開課第6期將開講,由阿里云智能集團(tuán)智算集群產(chǎn)品專家陳祎主講,主題為《大模型時代的智算GPU集群》。本次公開課,陳祎老師將從產(chǎn)業(yè)一線的角度,分享AI技術(shù)演進(jìn)下的GPU集群需求變化,并從Scale Up、Scale Out兩個層面,闡述集群算力的擴(kuò)展路徑。之后,陳祎老師還將重點講解大規(guī)模GPU集群的性能優(yōu)化方法,以及穩(wěn)定性挑戰(zhàn)和優(yōu)化實現(xiàn),并對AI基礎(chǔ)設(shè)施2025年的發(fā)展趨勢進(jìn)行展望。第6期信息主 題《大模型時代的智算GPU集群》提 綱1、AI技術(shù)演進(jìn)催生GPU集群的需求2、集群算力擴(kuò)展:Scale Up vs. Scale Out3、大規(guī)模GPU集群性能優(yōu)化4、集群的穩(wěn)定性挑戰(zhàn)與優(yōu)化實現(xiàn)5、AI基礎(chǔ)設(shè)施的2025展望主 講 人陳祎,阿里云智能集團(tuán)智算集群產(chǎn)品專家,負(fù)責(zé)阿里云AI智算場景的異構(gòu)計算集群產(chǎn)品規(guī)劃及設(shè)計直 播 時 間12月13日19:30-20:30報名方式有公開課直播觀看需求的朋友,可以添加小助手“瑞秋”進(jìn)行報名。已添加過“瑞秋”的老朋友,可以給“瑞秋”私信,發(fā)送“智算集群06”進(jìn)行報名。對于通過報名的朋友,之后將邀請入群進(jìn)行觀看和交流。END點擊下方名片即刻關(guān)注我們