AIGC動態歡迎閱讀
原標題:大模型MoE的前世今生,10個模型一文搞懂!
關鍵字:模型,專家,效果,參數,權重
文章來源:算法邦
內容字數:47863字
內容摘要:
2024年3、4月這段時間,很多MoE模型扎堆發布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。
下面這個表格列出了部分近期發布的MoE工作MoE模型目前風頭正勁,就連前不久小米汽車發布會上,雷總也弄了個多模態MoE大模型做汽車智能中控。相信今年接下來的這段時間,MoE還會給我們帶來更多的大新聞。
本篇將初步梳理MoE相關的一些經典工作和幾個近期發布的中文MoE模型,從背景、思路和效果來了解MoE模型。
到文章發出的2024年4月為止,個人認為DeepSeek-MoE和Qwen1.5-MoE是中文領域做得比較好的兩個工作,趕時間的朋友可以優先關注這兩個工作。
01時間線這里先對后面會涉及的MoE相關工作,大致按時間線梳理一下,也列出一些關鍵信息包括模型結構、模型規模等。
(很多經典的MoE工作都出自Google)
1.1.上古時代
首先是很多MoE相關論文都會引用的,發表在1991年的論文《Adaptive Mixtures of Local Experts》,這篇文章出自Geoffrey Hinton和Michael I. Jordan兩位大神之手。雖然在更早
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...