華為GTS LocMoE+:高可擴(kuò)展性親和度 MoE 架構(gòu),低開銷實(shí)現(xiàn)主動(dòng)路由
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:華為GTS LocMoE+:高可擴(kuò)展性親和度 MoE 架構(gòu),低開銷實(shí)現(xiàn)主動(dòng)路由
關(guān)鍵字:華為,路由,專家,能力,領(lǐng)域
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文共同一作為李婧博士,孫志杰和林大超博士,主要成員來自GTS AI計(jì)算Lab,主要研究及落地領(lǐng)域包含LLM訓(xùn)推加速、AI訓(xùn)練保障和圖計(jì)算。
MoE 因其在訓(xùn)推流程中低銷高效的特點(diǎn),近兩年在大語言模型領(lǐng)域大放異彩。作為 MoE 的靈魂,專家如何能夠發(fā)揮出最大的學(xué)習(xí)潛能,相關(guān)的研究與討論層出不窮。此前,華為 GTS AI 計(jì)算 Lab 的研究團(tuán)隊(duì)提出了 LocMoE ,包括新穎的路由網(wǎng)絡(luò)結(jié)構(gòu)、輔助降低通信開銷的本地性 loss 等,引發(fā)了廣泛關(guān)注。
LocMoE 的上述設(shè)計(jì)有效緩解了部分 MoE 經(jīng)典結(jié)構(gòu)在訓(xùn)練中的瓶頸,如: 專家路由算法可能無法有效區(qū)分 token,以及通信同步效率受限于節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間的傳輸帶寬差異等。此外,LocMoE 證明并求解出在能夠成
原文鏈接:華為GTS LocMoE+:高可擴(kuò)展性親和度 MoE 架構(gòu),低開銷實(shí)現(xiàn)主動(dòng)路由
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: