AIGC動態歡迎閱讀
原標題:GPU訓Llama 3.1瘋狂崩潰,竟有大廠用CPU服務器跑千億參數大模型?
關鍵字:模型,參數,報告,內存,張量
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】是時候用CPU通用服務器跑千億參數大模型了!馬斯克19天建成由10萬塊H100串聯的世界最大超算,已全力投入Grok 3的訓練中。
與此同時,外媒爆料稱,OpenAI和微軟聯手打造的下一個超算集群,將由10萬塊GB200組成。
在這場AI爭霸賽中,各大科技公司們卯足勁加大對GPU的投資,似乎在暗示著擁有更多、更強大的GPU,就能讓自己立于不敗之地。
然而,這種對高端GPU的狂熱追求,并非在所有情況下,都是完美無缺的解決方案。
Pytorch之父表示,技術報告中暗藏了很多基礎設施的有趣細節,包括如何并行化,如何讓系統更可靠等等
就拿穩定性來說,在Llama 3.1訓練的54天里,Meta的1.6萬塊H100集群總共遇到了419次意外中斷,相當于平均每3小時發生一次。
而在這之中,有148次(30.1%)是由于各種GPU故障引起的。
相比之下,由CPU故障引發的中斷,只有2次。
另一方面,想要把Llama 3.1 405B跑起來,還得搭配2臺8×H100的DGX工作站才行——即1280GB的顯存。
曾經有位勇士嘗試用一張4090運行,結果等了30分鐘
原文鏈接:GPU訓Llama 3.1瘋狂崩潰,竟有大廠用CPU服務器跑千億參數大模型?
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...