AIGC動態歡迎閱讀
原標題:1.6萬塊H100訓Llama 3.1,每3小時故障1次!罪魁禍首竟是GPU和HBM3顯存
關鍵字:故障,集群,問題,功耗,團隊
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:庸庸 好困
【新智元導讀】在Meta的Llama 3.1訓練過程中,其運行的1.6萬個GPU訓練集群每3小時就會出現一次故障,意外故障中的半數都是由英偉達H100 GPU和HBM3內存故障造成的。隨著大模型的迭代,其GPU用量也在不斷增長。
Meta的Llama 1使用了2028塊GPU,而到了Llama 3.1 405B,這個數字變成了16384。
規模如此龐大的超算系統迎來了可靠性和運行方面的巨大挑戰——
據Meta最近公布的研究顯示,Llama 3.1訓練持續了54天,在此期間集群遇到了419次意外組件故障,平均每3小時發生一次!
在一半的故障案例中,罪魁禍首正是英偉達的H100 GPU及其板載的HBM3內存。
在超算領域,有一句古老的諺語,「大規模系統唯一可以確定的事就是發生故障」。
一個由成千上萬個處理器、數十萬個其他芯片和數百英里的電纜組成的超算集群,是極其復雜的。這樣復雜的系統不可避免地會發生故障,甚至以幾個小時為間隔單位都很正常。
開發人員要做的是確保系統在這些局部故障的情況下仍然能夠正常運行。
Meta已經為抵御故障對系統的影響而耗費了不少精力,馬斯
原文鏈接:1.6萬塊H100訓Llama 3.1,每3小時故障1次!罪魁禍首竟是GPU和HBM3顯存
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...