單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?jiǎn)我蛔髡哒撐模雀杼岢霭偃f專家Mixture,超越密集前饋、稀疏MoE
關(guān)鍵字:專家,密鑰,模型,研究者,數(shù)量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:澤南、杜偉釋放進(jìn)一步擴(kuò)展 Transformer 的潛力,同時(shí)還可以保持計(jì)算效率。標(biāo)準(zhǔn) Transformer 架構(gòu)中的前饋(FFW)層會(huì)隨著隱藏層寬度的增加而導(dǎo)致計(jì)算成本和激活內(nèi)存的線性增加。在大語言模型(LLM)體量不斷增大的現(xiàn)在,稀疏混合專家(MoE)架構(gòu)已成為解決此問題的可行方法,它將模型大小與計(jì)算成本分離開來。很多新興的 MoE 模型都可以實(shí)現(xiàn)相同體量之上,更好的性能與更強(qiáng)大的表現(xiàn)。
最近發(fā)現(xiàn)的細(xì)粒度 MoE 擴(kuò)展定律表明,更高的粒度可帶來更好的性能。然而由于計(jì)算和優(yōu)化方面的挑戰(zhàn),現(xiàn)有的 MoE 模型僅限于低數(shù)量專家。
本周二,Google DeepMind 的新研究引入了一種參數(shù)高效的專家檢索機(jī)制,其利用乘積密鑰技術(shù)從一百萬個(gè)微型專家中進(jìn)行稀疏檢索。鏈接:https://arxiv.org/abs/2407.04153
該方法嘗試通過用于路由的學(xué)習(xí)索引結(jié)構(gòu)有效地串聯(lián)到大量微小專家,從而將計(jì)算成本與參數(shù)計(jì)數(shù)分離。與密集的 FFW、粗粒度 MoE 和產(chǎn)品密鑰存儲(chǔ)器 (PKM) 層相比,表現(xiàn)出卓越的效率。
這項(xiàng)工作引入了參數(shù)高效專家檢索(PEER) 架構(gòu)(pa
原文鏈接:單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)