AIGC動態歡迎閱讀
原標題:訓練一次經歷 419 次意外故障!英偉達 GPU 也差點玩不轉 405B 模型,全靠 Meta 工程師后天救場!
關鍵字:故障,模型,問題,集群,通信
文章來源:AI前線
內容字數:0字
內容摘要:
整理 | 華衛
最近,Meta 在一份研究報告中揭示了訓練 Llama 3 405B 參數模型的重大挑戰:該系統在包含 16384 個 Nvidia H100 GPU 的集群上運行,在訓練期間平均每三個小時就發生一次故障, 54 天內經歷了 419 次意外故障。
這些故障中,有一半以上的情況都歸因于 GPU 及其高帶寬內存 (HBM3)。由于 GPU 訓練任務的規模龐大和高度同步,Llama 3 很容易發生故障,且單個 GPU 故障就會中斷整個訓練過程,導致必須重新啟動。
不過,據介紹,盡管存在這些問題,Llama 3 團隊仍在支持自動化集群維護(例如固件和 Linux 內核升級)的同時,實現了超過 90% 的有效訓練時間(有效訓練時間是指實際用于有用訓練的時間與經過時間的比例)。
正如一句古老的超級計算諺語所言,“大規模系統唯一可以確定的就是失敗?!背売嬎銠C是極其復雜的設備,使用數萬個處理器、數十萬個其他芯片和數百英里長的電纜。在復雜的超級計算機中,每隔幾個小時出現故障是很正常的,而開發人員的主要訣竅就是確保系統在出現這種局部故障時仍能正常運行。58.7% 意外中斷源于 GPU,
原文鏈接:訓練一次經歷 419 次意外故障!英偉達 GPU 也差點玩不轉 405B 模型,全靠 Meta 工程師后天救場!
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...