LLM訓(xùn)練通信量減少10000倍!全新分布式優(yōu)化器,整合世間算力訓(xùn)練強(qiáng)大AI
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM訓(xùn)練通信量減少10000倍!全新分布式優(yōu)化器,整合世間算力訓(xùn)練強(qiáng)大AI
關(guān)鍵字:報(bào)告,模型,數(shù)據(jù),通信,分布式
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】近日,Nous Research宣布了一項(xiàng)重大突破,通過(guò)使用與架構(gòu)和網(wǎng)絡(luò)無(wú)關(guān)的分布式優(yōu)化器,研究人員成功將訓(xùn)練LLM時(shí)GPU間的通信量降低了1000到10000倍!如果可以使用世界上所有的算力來(lái)訓(xùn)練AI模型,會(huì)怎么樣?
近日,憑借發(fā)布了開(kāi)源的Hermes 3(基于Llama 3.1)而引起廣泛關(guān)注的Nous Research,再次宣布了一項(xiàng)重大突破——DisTrO(分布式互聯(lián)網(wǎng)訓(xùn)練)。
通過(guò)使用與架構(gòu)和網(wǎng)絡(luò)無(wú)關(guān)的分布式優(yōu)化器,研究人員成功將訓(xùn)練LLM時(shí)GPU間的通信量降低了1000到10000倍!
初步技術(shù)報(bào)告:https://github.com/NousResearch/DisTrO/
在如此夸張的改進(jìn)之下,大模型訓(xùn)練的重要成本和瓶頸——帶寬,也就不再是問(wèn)題。
使用DisTrO的方法,你可以將訓(xùn)練負(fù)載分布到互聯(lián)網(wǎng)上,而整個(gè)網(wǎng)絡(luò)世界也就成為了一個(gè)巨大的異構(gòu)的AI服務(wù)器集群。
——任何有相關(guān)算力的設(shè)備都可以參與到訓(xùn)練過(guò)程之中。
實(shí)驗(yàn)證明,本文的方法基本不會(huì)導(dǎo)致模型性能下降,同時(shí)DisTrO-AdamW在收斂速度方面,也與標(biāo)準(zhǔn)的AdamW+All
原文鏈接:LLM訓(xùn)練通信量減少10000倍!全新分布式優(yōu)化器,整合世間算力訓(xùn)練強(qiáng)大AI
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: