算法、系統(tǒng)和應(yīng)用,三個視角全面讀懂混合專家(MoE)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:算法、系統(tǒng)和應(yīng)用,三個視角全面讀懂混合專家(MoE)
關(guān)鍵字:門控,專家,模型,報告,華為
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
編輯:Panda WLLM 很強,而為了實現(xiàn) LLM 的可持續(xù)擴展,有必要找到并實現(xiàn)能提升其效率的方法,混合專家(MoE)就是這類方法的一大重要成員。最近,各家科技公司提出的新一代大模型不約而同地正在使用混合專家(Mixture of Experts:MoE)方法。
混合專家這一概念最早誕生于 1991 年的論文《Adaptive mixtures of local experts》,三十多年來已經(jīng)得到了廣泛的探索和發(fā)展。近年來,隨著稀疏門控 MoE 的出現(xiàn)和發(fā)展,尤其是與基于 Transformer 的大型語言模型相結(jié)合,這種已有三十多年歷史的技術(shù)煥發(fā)出了新的生機。
MoE 框架基于一個簡單卻又強大思想:模型的不同部分(稱為專家)專注于不同的任務(wù)或數(shù)據(jù)的不同方面。
使用這一范式時,對于一個輸入,僅有與之相關(guān)的專家(Expert)才會參與處理,這樣一來便能控制計算成本,同時仍能受益于大量專業(yè)知識。因此,MoE 可在不大幅提升計算需求的前提下提升大語言模型的能力。
如圖 1 所示,MoE 相關(guān)研究增長強勁,尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1
原文鏈接:算法、系統(tǒng)和應(yīng)用,三個視角全面讀懂混合專家(MoE)
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...