AIGC動態歡迎閱讀
原標題:混合專家模型Mixtral-8x7B模型挖坑指北
關鍵字:模型,專家,效果,權重,測試
文章來源:算法邦
內容字數:9096字
內容摘要:
01前言MistralAI很高冷的給開源社區扔了一條磁力鏈,基于Mixture of Experts的混合專家模型Mixtral-8x7B和指令微調的Mixtral-8x7B-Instruct來了。此前曾爆料GPT4就是基于MoE技術的大模型,MistralAI證明通過不到8個7B的參數量,不到2個7B模型的計算量,就能超越LLaMA 2 70B的效果,甚至部分超越了GPT-3.5的水平,隨即這兩個模型引爆社交網絡。截至目前,官網展示了Mixtral-8x7B的模型效果:圖1. Mistral 8x7B超越LLaMA 2 70B和GPT-3.5模型的命名方式也充滿野心, 新的7B模型只叫了個小小杯,效果這么好的8x7B MoE模型叫了個小杯,而在La plateforme中可以申請調用一個中杯模型的API(也許是8x13b、8x34B?),推測大杯和超大杯應該也在路上了。假的效果對比圖2.真實的小小杯-小杯-中杯效果對比
02結構介紹Mixtral-8x7B和LLaMA結構唯一的區別,在于將MLP layer復制成了8個expert layers并在一起,通過一個gate layer,
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...