AIGC動態歡迎閱讀
原標題:單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE
關鍵字:專家,密鑰,模型,研究者,數量
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:澤南、杜偉釋放進一步擴展 Transformer 的潛力,同時還可以保持計算效率。標準 Transformer 架構中的前饋(FFW)層會隨著隱藏層寬度的增加而導致計算成本和激活內存的線性增加。在大語言模型(LLM)體量不斷增大的現在,稀疏混合專家(MoE)架構已成為解決此問題的可行方法,它將模型大小與計算成本分離開來。很多新興的 MoE 模型都可以實現相同體量之上,更好的性能與更強大的表現。
最近發現的細粒度 MoE 擴展定律表明,更高的粒度可帶來更好的性能。然而由于計算和優化方面的挑戰,現有的 MoE 模型僅限于低數量專家。
本周二,Google DeepMind 的新研究引入了一種參數高效的專家檢索機制,其利用乘積密鑰技術從一百萬個微型專家中進行稀疏檢索。鏈接:https://arxiv.org/abs/2407.04153
該方法嘗試通過用于路由的學習索引結構有效地串聯到大量微小專家,從而將計算成本與參數計數分離。與密集的 FFW、粗粒度 MoE 和產品密鑰存儲器 (PKM) 層相比,表現出卓越的效率。
這項工作引入了參數高效專家檢索(PEER) 架構(pa
原文鏈接:單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...