AIGC動態歡迎閱讀
內容摘要:
開講預約導讀文章轉載自知乎,作者為你的真實姓名,本文只作者對知乎問題“如何判斷候選人有沒有千卡GPU集群的訓練經驗?”的回答和總結。
原文地址:https://www.zhihu.com/question/650979052/answer/3501160453
本文只做學術/技術分享,如有侵權,聯系刪文。最近看到知乎一個回答,把千卡訓練的難度吹上天了。但其實真正用過千卡就會發現也就那么幾個點。于是想寫一篇文章簡單講講。
本文將包括3個部分:首先我們將討論千卡訓練的難題,以及應該在什么時候使用千卡訓練;接著,我們將討論如何在一千張卡上開始訓練,如何讓他達到近乎線性的性能提升;最后我們將展開討論一些千卡訓練當中仍然懸而未決(至少對于開源社區來說)的問題。
01為什么千卡訓練是困難的?千卡訓練和八卡訓練的區別是—顯卡多了一百多倍。
這意味著什么呢?
通信時間增加
故障概率增加
這倆問題都很好理解。
時間上,PyTorch內部支持NCCL/Gloo/MPI三個通信后端(請務必使用NCCL。其中AllReduce操作會會根據具體硬件配置走Ring AllReduce和Tree AllReduce
原文鏈接:大模型千卡訓練總結
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...