首個(gè)國產(chǎn)開源MoE大模型來了!性能媲美Llama 2-7B,計(jì)算量降低60%
AIGC動態(tài)歡迎閱讀
原標(biāo)題:首個(gè)國產(chǎn)開源MoE大模型來了!性能媲美Llama 2-7B,計(jì)算量降低60%
關(guān)鍵字:模型,專家,參數(shù),版本,團(tuán)隊(duì)
文章來源:量子位
內(nèi)容字?jǐn)?shù):2852字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI開源MoE模型,終于迎來首位國產(chǎn)選手!
它的表現(xiàn)完全不輸給密集的Llama 2-7B模型,計(jì)算量卻僅有40%。
這個(gè)模型堪稱19邊形戰(zhàn)士,特別是在數(shù)學(xué)和代碼能力上對Llama形成了碾壓。
它就是深度求索團(tuán)隊(duì)最新開源的160億參數(shù)專家模型DeepSeek MoE。
除了性能上表現(xiàn)優(yōu)異,DeepSeek MoE主打的就是節(jié)約計(jì)算量。
在這張表現(xiàn)-激活參數(shù)量圖中,它“一枝獨(dú)秀”地占據(jù)了左上角的大片空白區(qū)。
發(fā)布僅一天,DeepSeek團(tuán)隊(duì)在X上的推文就有大量轉(zhuǎn)發(fā)關(guān)注。
JP摩根的機(jī)器學(xué)習(xí)工程師Maxime Labonne測試后也表示,DeepSeek MoE的chat版本表現(xiàn)要略勝于微軟的“小模型”Phi-2。
同時(shí),DeepSeek MoE還在GitHub上獲得了300+星標(biāo),并登上了Hugging Face文本生成類模型排行榜的首頁。
那么,DeepSeek MoE的具體表現(xiàn)究竟怎么樣呢?
計(jì)算量減少60%DeepSeek MoE目前推出的版本參數(shù)量為160億,實(shí)際激活參數(shù)量大約是28億。
與自家的7B密集模型相比,二者在19個(gè)數(shù)據(jù)集上
原文鏈接:首個(gè)國產(chǎn)開源MoE大模型來了!性能媲美Llama 2-7B,計(jì)算量降低60%
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破