LLM訓(xùn)練通信量減少10000倍！全新分布式優(yōu)化器，整合世間算力訓(xùn)練強(qiáng)大AI

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：LLM訓(xùn)練通信量減少10000倍！全新分布式優(yōu)化器，整合世間算力訓(xùn)練強(qiáng)大AI
關(guān)鍵字：報(bào)告,模型,數(shù)據(jù),通信,分布式
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：alan
【新智元導(dǎo)讀】近日，Nous Research宣布了一項(xiàng)重大突破，通過(guò)使用與架構(gòu)和網(wǎng)絡(luò)無(wú)關(guān)的分布式優(yōu)化器，研究人員成功將訓(xùn)練LLM時(shí)GPU間的通信量降低了1000到10000倍！如果可以使用世界上所有的算力來(lái)訓(xùn)練AI模型，會(huì)怎么樣？
近日，憑借發(fā)布了開(kāi)源的Hermes 3（基于Llama 3.1）而引起廣泛關(guān)注的Nous Research，再次宣布了一項(xiàng)重大突破——DisTrO（分布式互聯(lián)網(wǎng)訓(xùn)練）。
通過(guò)使用與架構(gòu)和網(wǎng)絡(luò)無(wú)關(guān)的分布式優(yōu)化器，研究人員成功將訓(xùn)練LLM時(shí)GPU間的通信量降低了1000到10000倍！
初步技術(shù)報(bào)告：https://github.com/NousResearch/DisTrO/
在如此夸張的改進(jìn)之下，大模型訓(xùn)練的重要成本和瓶頸——帶寬，也就不再是問(wèn)題。
使用DisTrO的方法，你可以將訓(xùn)練負(fù)載分布到互聯(lián)網(wǎng)上，而整個(gè)網(wǎng)絡(luò)世界也就成為了一個(gè)巨大的異構(gòu)的AI服務(wù)器集群。
——任何有相關(guān)算力的設(shè)備都可以參與到訓(xùn)練過(guò)程之中。
實(shí)驗(yàn)證明，本文的方法基本不會(huì)導(dǎo)致模型性能下降，同時(shí)DisTrO-AdamW在收斂速度方面，也與標(biāo)準(zhǔn)的AdamW+All

原文鏈接：LLM訓(xùn)練通信量減少10000倍！全新分布式優(yōu)化器，整合世間算力訓(xùn)練強(qiáng)大AI