AIGC動態歡迎閱讀
原標題:殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦!
關鍵字:專家,模型,顯著特征,門控,基準
文章來源:夕小瑤科技說
內容字數:4894字
內容摘要:
夕小瑤科技說 原創作者 | 付奶茶、王二狗上個月法國初創公司 Mistral AI 開源的一個8x7B MoE模型Mixtral 8x7B引爆了AI社區。
一是因為它的性能擊敗了LLama2和GPT-3.5,二是因為,Mixtral是一個專家混合模型(Mixture-of-Experts model,MoE),使用了傳聞中 OpenAI 用于GPT-4的架構,但是參數相比GPT-4要小很多,堪稱是縮小版“GPT-4”。
而就在這幾天,Mixtral 8x7B發布了模型背后的論文,下面就帶大家一起來深入了解 Mixtral 8x7B的獨特之處。
論文題目:
Mixtral of Experts
論文鏈接:
https://arxiv.org/abs/2401.04088
Github代碼:
https://github.com/mistralai/mistral-src
官方主頁:
https://mistral.ai/news/mixtral-of-experts/
模型架構Mixtral架構的顯著特征是每層由8個前饋塊組成,這些“專家層”取代了傳統Transformer模型中的前饋網
原文鏈接:殺瘋了的開源專家模型 Mixtral 8x7B 論文公開啦!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...