AIGC動態歡迎閱讀
原標題:算法、系統和應用,三個視角全面讀懂混合專家(MoE)
關鍵字:門控,專家,模型,報告,華為
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:Panda WLLM 很強,而為了實現 LLM 的可持續擴展,有必要找到并實現能提升其效率的方法,混合專家(MoE)就是這類方法的一大重要成員。最近,各家科技公司提出的新一代大模型不約而同地正在使用混合專家(Mixture of Experts:MoE)方法。
混合專家這一概念最早誕生于 1991 年的論文《Adaptive mixtures of local experts》,三十多年來已經得到了廣泛的探索和發展。近年來,隨著稀疏門控 MoE 的出現和發展,尤其是與基于 Transformer 的大型語言模型相結合,這種已有三十多年歷史的技術煥發出了新的生機。
MoE 框架基于一個簡單卻又強大思想:模型的不同部分(稱為專家)專注于不同的任務或數據的不同方面。
使用這一范式時,對于一個輸入,僅有與之相關的專家(Expert)才會參與處理,這樣一來便能控制計算成本,同時仍能受益于大量專業知識。因此,MoE 可在不大幅提升計算需求的前提下提升大語言模型的能力。
如圖 1 所示,MoE 相關研究增長強勁,尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1
原文鏈接:算法、系統和應用,三個視角全面讀懂混合專家(MoE)
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...