混合專家模型Mixtral-8x7B模型挖坑指北

AIGC動態1年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：混合專家模型Mixtral-8x7B模型挖坑指北
關鍵字：模型,專家,效果,權重,測試
文章來源：算法邦
內容字數：9096字

內容摘要：

01前言MistralAI很高冷的給開源社區扔了一條磁力鏈，基于Mixture of Experts的混合專家模型Mixtral-8x7B和指令微調的Mixtral-8x7B-Instruct來了。此前曾爆料GPT4就是基于MoE技術的大模型，MistralAI證明通過不到8個7B的參數量，不到2個7B模型的計算量，就能超越LLaMA 2 70B的效果，甚至部分超越了GPT-3.5的水平，隨即這兩個模型引爆社交網絡。截至目前，官網展示了Mixtral-8x7B的模型效果：圖1. Mistral 8x7B超越LLaMA 2 70B和GPT-3.5模型的命名方式也充滿野心，新的7B模型只叫了個小小杯，效果這么好的8x7B MoE模型叫了個小杯，而在La plateforme中可以申請調用一個中杯模型的API（也許是8x13b、8x34B？），推測大杯和超大杯應該也在路上了。假的效果對比圖2.真實的小小杯-小杯-中杯效果對比
02結構介紹Mixtral-8x7B和LLaMA結構唯一的區別，在于將MLP layer復制成了8個expert layers并在一起，通過一個gate layer，

原文鏈接：混合專家模型Mixtral-8x7B模型挖坑指北

聯系作者

文章來源：算法邦
作者微信：allplusai
作者簡介：「算法邦」，隸屬于智猩猩，關注大模型、生成式AI、計算機視覺三大領域的研究與開發，提供技術文章、講座、在線研討會。

閱讀原文

# AIGC動態 # 專家 # 效果 # 權重 # 模型 # 測試

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

混合專家模型Mixtral-8x7B模型挖坑指北

AIGC動態歡迎閱讀

內容摘要：

聯系作者

紐約大學Nature發文：轉錄—復制相互作用譜

多模態大模型，阿里通義千問能和GPT-4V掰手腕了

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

混合專家模型Mixtral-8x7B模型挖坑指北

AIGC動態歡迎閱讀

內容摘要：

聯系作者

紐約大學Nature發文：轉錄—復制相互作用譜

多模態大模型，阿里通義千問能和GPT-4V掰手腕了

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

多模態大模型，阿里通義千問能和GPT-4V掰手腕了