Mixtral 8x7B論文終于來(lái)了:架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mixtral 8x7B論文終于來(lái)了:架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光
關(guān)鍵字:專家,基準(zhǔn),模型,研究者,論文
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8066字
內(nèi)容摘要:
機(jī)器之心報(bào)道
作者:陳萍、大盤雞Mixtral 8x7B 在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于 Llama 2 70B 和 GPT-3.5。前段時(shí)間,那個(gè)爆火整個(gè)開(kāi)源社區(qū)的 Mixtral 8x7B MoE 模型論文放出了。
此前,由于 OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的參數(shù)量和訓(xùn)練細(xì)節(jié)守口如瓶。Mistral 8x7B 的放出,無(wú)疑給廣大開(kāi)發(fā)者提供了一種「非常接近 GPT-4」的開(kāi)源選項(xiàng)。要知道,很早之前就有人爆料,OpenAI 也是采用了「混合專家模型」(Mixture of Experts,MoE)的構(gòu)架來(lái)搭建 GPT-4。
隨著論文的放出,一些研究細(xì)節(jié)也被公布出來(lái)。論文地址:https://arxiv.org/pdf/2401.04088.pdf
項(xiàng)目地址:https://github.com/mistralai/mistral-src
論文主頁(yè):https://mistral.ai/news/mixtral-of-experts/
Mixtral 8x7B 是一種具有開(kāi)放權(quán)重的稀疏專家混合模型 (SMoE),在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于 Llama 2 70B 和 GPT-3.5。Mi
原文鏈接:Mixtral 8x7B論文終于來(lái)了:架構(gòu)細(xì)節(jié)、參數(shù)量首次曝光
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)