MoE也有Scaling Law,「百萬(wàn)專家」利用率近100%!DeepMind華人挑戰(zhàn)MoE極限
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:MoE也有Scaling Law,「百萬(wàn)專家」利用率近100%!DeepMind華人挑戰(zhàn)MoE極限
關(guān)鍵字:專家,模型,數(shù)量,參數(shù),大小
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部
【新智元導(dǎo)讀】MoE已然成為AI界的主流架構(gòu),不論是開(kāi)源Grok,還是閉源GPT-4,皆是其擁躉。然而,這些模型的專家,最大數(shù)量?jī)H有32個(gè)。最近,谷歌DeepMind提出了全新的策略PEER,可將MoE擴(kuò)展到百萬(wàn)個(gè)專家,還不會(huì)增加計(jì)算成本。如果你熟悉當(dāng)前LLM的主流架構(gòu),混合專家(MoE)技術(shù)想必是老朋友之一。有人甚至?xí)f(shuō),MoE是使大模型崛起的關(guān)鍵因素之一。
開(kāi)源的Mixtral、DBRX、Grok等模型都使用了MoE,而且根據(jù)Soumith Chintala等大佬的推測(cè),GPT-4也是一個(gè)規(guī)模為8×220B的MoE模型。
類似GPT-4,多數(shù)MoE模型都會(huì)將專家數(shù)量限制在較少數(shù)量,一般不會(huì)超過(guò)16或32。
然而,DeepMind研究科學(xué)家Xu Owen He最近就在一篇發(fā)表的論文中,提出了一種全新的方法——PEER(參數(shù)高效專家檢索,Parameter Efficient Expert Retrieval),可以將專家數(shù)量擴(kuò)展到百萬(wàn)數(shù)量級(jí)。
論文地址:https://arxiv.org/abs/2407.04153
這究竟是如何做到的?參數(shù)量不會(huì)嗎
原文鏈接:MoE也有Scaling Law,「百萬(wàn)專家」利用率近100%!DeepMind華人挑戰(zhàn)MoE極限
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。