拆掉英偉達(dá)護(hù)城河,細(xì)節(jié)曝光!世界最快超算用3072塊AMD GPU訓(xùn)完超萬億參數(shù)LLM

AIGC動態(tài)歡迎閱讀
原標(biāo)題:拆掉英偉達(dá)護(hù)城河,細(xì)節(jié)曝光!世界最快超算用3072塊AMD GPU訓(xùn)完超萬億參數(shù)LLM
關(guān)鍵字:管線,模型,研究人員,參數(shù),數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):13753字
內(nèi)容摘要:
新智元報道編輯:潤 好困
【新智元導(dǎo)讀】世界上最快超算集群Frontier,用8%的GPU訓(xùn)練出了一個萬億級規(guī)模的大模型,而且是在AMD硬件平臺之上完成。研究人員將訓(xùn)練的細(xì)節(jié)和克服的困難寫成了一篇論文,展示了如何用非英偉達(dá)的生態(tài)完成大模型訓(xùn)練的技術(shù)框架和細(xì)節(jié)。用AMD的軟硬件系統(tǒng)也能訓(xùn)練GPT-3.5級別的大模型了。
位于美國橡樹嶺國家實驗室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888個MI250X GPU和9472個Epyc 7A53 CPU。
最近,研究人員只使用了其中8%左右的GPU,就訓(xùn)練了一個GPT-3.5規(guī)模的模型。
研究人員成功地使用ROCM軟件平臺在AMD硬件上成功地突破了分布式訓(xùn)練模型的很多難點,建立了使用ROCM平臺在AMD硬件上為大模型實現(xiàn)最先進(jìn)的分布式訓(xùn)練算法和框架。
成功地在非英偉達(dá)和非CUDA平臺上為高效訓(xùn)練LLM提供了可行的技術(shù)框架。
訓(xùn)練完成后,研究人員將在Frontier上訓(xùn)練大模型的經(jīng)驗的總結(jié)成了一篇論文,詳細(xì)描述了期間遇到的挑戰(zhàn)以及克服的困難。
論文鏈接:https://arx
原文鏈接:拆掉英偉達(dá)護(hù)城河,細(xì)節(jié)曝光!世界最快超算用3072塊AMD GPU訓(xùn)完超萬億參數(shù)LLM
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號