算法、系統(tǒng)和應(yīng)用，三個視角全面讀懂混合專家（MoE）

AIGC動態(tài)歡迎閱讀

原標(biāo)題：算法、系統(tǒng)和應(yīng)用，三個視角全面讀懂混合專家（MoE）
關(guān)鍵字：門控,專家,模型,報告,華為
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機器之心報道
編輯：Panda WLLM 很強，而為了實現(xiàn) LLM 的可持續(xù)擴展，有必要找到并實現(xiàn)能提升其效率的方法，混合專家（MoE）就是這類方法的一大重要成員。最近，各家科技公司提出的新一代大模型不約而同地正在使用混合專家（Mixture of Experts：MoE）方法。
混合專家這一概念最早誕生于 1991 年的論文《Adaptive mixtures of local experts》，三十多年來已經(jīng)得到了廣泛的探索和發(fā)展。近年來，隨著稀疏門控 MoE 的出現(xiàn)和發(fā)展，尤其是與基于 Transformer 的大型語言模型相結(jié)合，這種已有三十多年歷史的技術(shù)煥發(fā)出了新的生機。
MoE 框架基于一個簡單卻又強大思想：模型的不同部分（稱為專家）專注于不同的任務(wù)或數(shù)據(jù)的不同方面。
使用這一范式時，對于一個輸入，僅有與之相關(guān)的專家（Expert）才會參與處理，這樣一來便能控制計算成本，同時仍能受益于大量專業(yè)知識。因此，MoE 可在不大幅提升計算需求的前提下提升大語言模型的能力。
如圖 1 所示，MoE 相關(guān)研究增長強勁，尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1

原文鏈接：算法、系統(tǒng)和應(yīng)用，三個視角全面讀懂混合專家（MoE）