殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦！

AIGC動態(tài)2年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦！
關(guān)鍵字：專家,模型,顯著特征,門控,基準
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：4894字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 付奶茶、王二狗上個月法國初創(chuàng)公司 Mistral AI 開源的一個8x7B MoE模型Mixtral 8x7B引爆了AI社區(qū)。
一是因為它的性能擊敗了LLama2和GPT-3.5，二是因為，Mixtral是一個專家混合模型（Mixture-of-Experts model，MoE），使用了傳聞中 OpenAI 用于GPT-4的架構(gòu)，但是參數(shù)相比GPT-4要小很多，堪稱是縮小版“GPT-4”。
而就在這幾天，Mixtral 8x7B發(fā)布了模型背后的論文，下面就帶大家一起來深入了解 Mixtral 8x7B的獨特之處。
論文題目:
Mixtral of Experts
論文鏈接:
https://arxiv.org/abs/2401.04088
Github代碼:
https://github.com/mistralai/mistral-src
官方主頁：
https://mistral.ai/news/mixtral-of-experts/
模型架構(gòu)Mixtral架構(gòu)的顯著特征是每層由8個前饋塊組成，這些“專家層”取代了傳統(tǒng)Transformer模型中的前饋網(wǎng)

原文鏈接：殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦！

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：更快的AI前沿，更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠，兼?zhèn)涿襟wsense與技術(shù)深度。

閱讀原文