殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦!
AIGC動態(tài)歡迎閱讀
原標題:殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦!
關(guān)鍵字:專家,模型,顯著特征,門控,基準
文章來源:夕小瑤科技說
內(nèi)容字數(shù):4894字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 付奶茶、王二狗上個月法國初創(chuàng)公司 Mistral AI 開源的一個8x7B MoE模型Mixtral 8x7B引爆了AI社區(qū)。
一是因為它的性能擊敗了LLama2和GPT-3.5,二是因為,Mixtral是一個專家混合模型(Mixture-of-Experts model,MoE),使用了傳聞中 OpenAI 用于GPT-4的架構(gòu),但是參數(shù)相比GPT-4要小很多,堪稱是縮小版“GPT-4”。
而就在這幾天,Mixtral 8x7B發(fā)布了模型背后的論文,下面就帶大家一起來深入了解 Mixtral 8x7B的獨特之處。
論文題目:
Mixtral of Experts
論文鏈接:
https://arxiv.org/abs/2401.04088
Github代碼:
https://github.com/mistralai/mistral-src
官方主頁:
https://mistral.ai/news/mixtral-of-experts/
模型架構(gòu)Mixtral架構(gòu)的顯著特征是每層由8個前饋塊組成,這些“專家層”取代了傳統(tǒng)Transformer模型中的前饋網(wǎng)
原文鏈接:殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。