100B 的「跨級(jí)」躍升！元象發(fā)布最大 MoE 開(kāi)源大模型，「高性能全家桶」系列全部免費(fèi)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：100B 的「跨級(jí)」躍升！元象發(fā)布最大 MoE 開(kāi)源大模型，「高性能全家桶」系列全部免費(fèi)
關(guān)鍵字：騰訊,模型,專(zhuān)家,數(shù)據(jù),權(quán)重
文章來(lái)源：AI前線
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

作者 | 華衛(wèi)
9 月 13 日，元象 XVERSE 發(fā)布中國(guó)最大 MoE 開(kāi)源模型：XVERSE-MoE-A36B。該模型總參數(shù) 255B，激活參數(shù) 36B，能達(dá)到 100B 模型的性能「跨級(jí)」躍升，同時(shí)訓(xùn)練時(shí)間減少 30%，推理性能提升 100%，使每 token 成本大幅下降。
并且，元象「高性能全家桶」系列全部開(kāi)源，無(wú)條件免費(fèi)商用，海量中小企業(yè)、研究者和開(kāi)發(fā)者能按需選擇。
MoE（Mixture of Experts）是業(yè)界前沿的混合專(zhuān)家模型架構(gòu) ，將多個(gè)細(xì)分領(lǐng)域的專(zhuān)家模型組合成一個(gè)超級(jí)模型，打破了傳統(tǒng)擴(kuò)展定律（Scaling Law）的局限，可在擴(kuò)大模型規(guī)模時(shí)，不顯著增加訓(xùn)練和推理的計(jì)算成本，并保持模型性能最大化。出于這個(gè)原因，行業(yè)前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
免費(fèi)下載大模型
Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭：https://modelscope.cn/models/xvers

原文鏈接：100B 的「跨級(jí)」躍升！元象發(fā)布最大 MoE 開(kāi)源大模型，「高性能全家桶」系列全部免費(fèi)