單一作者論文，谷歌提出百萬專家Mixture，超越密集前饋、稀疏MoE

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：?jiǎn)我蛔髡哒撐模雀杼岢霭偃f專家Mixture，超越密集前饋、稀疏MoE
關(guān)鍵字：專家,密鑰,模型,研究者,數(shù)量
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：澤南、杜偉釋放進(jìn)一步擴(kuò)展 Transformer 的潛力，同時(shí)還可以保持計(jì)算效率。標(biāo)準(zhǔn) Transformer 架構(gòu)中的前饋（FFW）層會(huì)隨著隱藏層寬度的增加而導(dǎo)致計(jì)算成本和激活內(nèi)存的線性增加。在大語言模型（LLM）體量不斷增大的現(xiàn)在，稀疏混合專家（MoE）架構(gòu)已成為解決此問題的可行方法，它將模型大小與計(jì)算成本分離開來。很多新興的 MoE 模型都可以實(shí)現(xiàn)相同體量之上，更好的性能與更強(qiáng)大的表現(xiàn)。
最近發(fā)現(xiàn)的細(xì)粒度 MoE 擴(kuò)展定律表明，更高的粒度可帶來更好的性能。然而由于計(jì)算和優(yōu)化方面的挑戰(zhàn)，現(xiàn)有的 MoE 模型僅限于低數(shù)量專家。
本周二，Google DeepMind 的新研究引入了一種參數(shù)高效的專家檢索機(jī)制，其利用乘積密鑰技術(shù)從一百萬個(gè)微型專家中進(jìn)行稀疏檢索。鏈接：https://arxiv.org/abs/2407.04153
該方法嘗試通過用于路由的學(xué)習(xí)索引結(jié)構(gòu)有效地串聯(lián)到大量微小專家，從而將計(jì)算成本與參數(shù)計(jì)數(shù)分離。與密集的 FFW、粗粒度 MoE 和產(chǎn)品密鑰存儲(chǔ)器 (PKM) 層相比，表現(xiàn)出卓越的效率。
這項(xiàng)工作引入了參數(shù)高效專家檢索（PEER) 架構(gòu)（pa

原文鏈接：單一作者論文，谷歌提出百萬專家Mixture，超越密集前饋、稀疏MoE