
AIGC動態歡迎閱讀
原標題:首個國產開源MoE大模型來了!性能媲美Llama 2-7B,計算量降低60%
關鍵字:模型,專家,參數,版本,團隊
文章來源:量子位
內容字數:2852字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI開源MoE模型,終于迎來首位國產選手!
它的表現完全不輸給密集的Llama 2-7B模型,計算量卻僅有40%。
這個模型堪稱19邊形戰士,特別是在數學和代碼能力上對Llama形成了碾壓。
它就是深度求索團隊最新開源的160億參數專家模型DeepSeek MoE。
除了性能上表現優異,DeepSeek MoE主打的就是節約計算量。
在這張表現-激活參數量圖中,它“一枝獨秀”地占據了左上角的大片空白區。
發布僅一天,DeepSeek團隊在X上的推文就有大量轉發關注。
JP摩根的機器學習工程師Maxime Labonne測試后也表示,DeepSeek MoE的chat版本表現要略勝于微軟的“小模型”Phi-2。
同時,DeepSeek MoE還在GitHub上獲得了300+星標,并登上了Hugging Face文本生成類模型排行榜的首頁。
那么,DeepSeek MoE的具體表現究竟怎么樣呢?
計算量減少60%DeepSeek MoE目前推出的版本參數量為160億,實際激活參數量大約是28億。
與自家的7B密集模型相比,二者在19個數據集上
原文鏈接:首個國產開源MoE大模型來了!性能媲美Llama 2-7B,計算量降低60%
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號