評測超Llama2,混合專家模型(MoE)會是大模型新方向嗎?
AIGC動態歡迎閱讀
原標題:評測超Llama2,混合專家模型(MoE)會是大模型新方向嗎?
關鍵字:模型,專家,解讀,政策,門控
文章來源:Founder Park
內容字數:12970字
內容摘要:
混合專家模型(MoE)成為最近關注的熱點。
先是 Reddit 上一篇關于 GPT-4 結構的猜測帖,暗示了 GPT-4 可能是由 16 個子模塊組成的專家模型(MoE)的混合體。據說,這 16 個子模塊中的每一個 MoE 都有 1110 億個參數(作為參考,GPT-3 有 1750 億個參數)。盡管不能 100% 確定,但 GPT-4 是一個 MoE 組成的集群這個事很可能是真的。
然后是法國 AI 公司 MistralAI 發布了全球首個基于混合專家技術的大模型 Mistral-8x7B-MoE,是 8 個 70 億參數規模大模型的混合。
主要特點如下:
它可以非常優雅地處理 32K 上下文數據;
除了英語外,在法語、德語、意大利語和西班牙語表現也很好;
在代碼能力上表現很強;
指令微調后 MT-Bench 的得分 8.3 分(GPT-3.5 是 8.32、LLaMA2 70B 是 6.86);
Mistral-7B×8-MoE 是首個被證明有效的開源的 MoE LLM,相比于早期的 Switch Transformer、GLaM 等研究,Mistral-7B×8-MoE 證明了
原文鏈接:評測超Llama2,混合專家模型(MoE)會是大模型新方向嗎?
聯系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...