GPU訓(xùn)Llama 3.1瘋狂崩潰,竟有大廠用CPU服務(wù)器跑千億參數(shù)大模型?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:GPU訓(xùn)Llama 3.1瘋狂崩潰,竟有大廠用CPU服務(wù)器跑千億參數(shù)大模型?
關(guān)鍵字:模型,參數(shù),報告,內(nèi)存,張量
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】是時候用CPU通用服務(wù)器跑千億參數(shù)大模型了!馬斯克19天建成由10萬塊H100串聯(lián)的世界最大超算,已全力投入Grok 3的訓(xùn)練中。
與此同時,外媒爆料稱,OpenAI和微軟聯(lián)手打造的下一個超算集群,將由10萬塊GB200組成。
在這場AI爭霸賽中,各大科技公司們卯足勁加大對GPU的投資,似乎在暗示著擁有更多、更強大的GPU,就能讓自己立于不敗之地。
然而,這種對高端GPU的狂熱追求,并非在所有情況下,都是完美無缺的解決方案。
Pytorch之父表示,技術(shù)報告中暗藏了很多基礎(chǔ)設(shè)施的有趣細(xì)節(jié),包括如何并行化,如何讓系統(tǒng)更可靠等等
就拿穩(wěn)定性來說,在Llama 3.1訓(xùn)練的54天里,Meta的1.6萬塊H100集群總共遇到了419次意外中斷,相當(dāng)于平均每3小時發(fā)生一次。
而在這之中,有148次(30.1%)是由于各種GPU故障引起的。
相比之下,由CPU故障引發(fā)的中斷,只有2次。
另一方面,想要把Llama 3.1 405B跑起來,還得搭配2臺8×H100的DGX工作站才行——即1280GB的顯存。
曾經(jīng)有位勇士嘗試用一張4090運行,結(jié)果等了30分鐘
原文鏈接:GPU訓(xùn)Llama 3.1瘋狂崩潰,竟有大廠用CPU服務(wù)器跑千億參數(shù)大模型?
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: