對(duì)標(biāo)OpenAI GPT-4，MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：對(duì)標(biāo)OpenAI GPT-4，MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線
關(guān)鍵字：模型,解讀,小米,騰訊,架構(gòu)
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：4369字

內(nèi)容摘要：

作者｜冬梅
1 月 16 日，InfoQ 獲悉，經(jīng)過了半個(gè)月的部分客戶的內(nèi)測(cè)和反饋，MiniMax 全量發(fā)布大語言模型 abab6，該模型為國(guó)內(nèi)首個(gè) MoE（Mixture-of-Experts）大語言模型。早在上個(gè)月舉辦的數(shù)字中國(guó)論壇成立大會(huì)暨數(shù)字化發(fā)展論壇的一場(chǎng)分論壇上，MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國(guó)內(nèi)首個(gè)基于 MoE 架構(gòu)的大模型，對(duì)標(biāo) OpenAI GPT-4。在 MoE 結(jié)構(gòu)下，abab6 擁有大參數(shù)帶來的處理復(fù)雜任務(wù)的能力，同時(shí)模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù)，計(jì)算效率也可以得到大幅提升。改進(jìn)了 abab5.5 在處理更復(fù)雜、對(duì)模型輸出有更精細(xì)要求場(chǎng)景現(xiàn)的問題。為什么選擇 MoE 架構(gòu)？那么，MoE 到底是什么？MiniMax 的大模型為何要使用使用 MoE 架構(gòu)？
MoE 架構(gòu)全稱專家混合（Mixture-of-Experts），是一種集成方法，其中整個(gè)問題被分為多個(gè)子任務(wù)，并將針對(duì)每個(gè)子任務(wù)訓(xùn)練一組專家。MoE 模型將覆蓋不同學(xué)習(xí)者（專家）的不同輸入數(shù)據(jù)。
圖片來源：https ://arxiv.org/pdf/1701.06538.pdf
有

原文鏈接：對(duì)標(biāo)OpenAI GPT-4，MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線

聯(lián)系作者

文章來源：AI前線
作者微信：ai-front
作者簡(jiǎn)介：面向AI愛好者、開發(fā)者和科學(xué)家，提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課，助力你全面擁抱人工智能技術(shù)。

閱讀原文