大模型千卡訓練總結(jié)

AIGC動態(tài)歡迎閱讀
原標題:大模型千卡訓練總結(jié)
關(guān)鍵字:知乎,梯度,節(jié)點,侵權(quán),通信
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
開講預約導讀文章轉(zhuǎn)載自知乎,作者為你的真實姓名,本文只作者對知乎問題“如何判斷候選人有沒有千卡GPU集群的訓練經(jīng)驗?”的回答和總結(jié)。
原文地址:https://www.zhihu.com/question/650979052/answer/3501160453
本文只做學術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。最近看到知乎一個回答,把千卡訓練的難度吹上天了。但其實真正用過千卡就會發(fā)現(xiàn)也就那么幾個點。于是想寫一篇文章簡單講講。
本文將包括3個部分:首先我們將討論千卡訓練的難題,以及應該在什么時候使用千卡訓練;接著,我們將討論如何在一千張卡上開始訓練,如何讓他達到近乎線性的性能提升;最后我們將展開討論一些千卡訓練當中仍然懸而未決(至少對于開源社區(qū)來說)的問題。
01為什么千卡訓練是困難的?千卡訓練和八卡訓練的區(qū)別是—顯卡多了一百多倍。
這意味著什么呢?
通信時間增加
故障概率增加
這倆問題都很好理解。
時間上,PyTorch內(nèi)部支持NCCL/Gloo/MPI三個通信后端(請務(wù)必使用NCCL。其中AllReduce操作會會根據(jù)具體硬件配置走Ring AllReduce和Tree AllReduce
原文鏈接:大模型千卡訓練總結(jié)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號