對(duì)標(biāo)OpenAI GPT-4,MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:對(duì)標(biāo)OpenAI GPT-4,MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線
關(guān)鍵字:模型,解讀,小米,騰訊,架構(gòu)
文章來源:AI前線
內(nèi)容字?jǐn)?shù):4369字
內(nèi)容摘要:
作者|冬梅
1 月 16 日,InfoQ 獲悉,經(jīng)過了半個(gè)月的部分客戶的內(nèi)測(cè)和反饋,MiniMax 全量發(fā)布大語言模型 abab6,該模型為國(guó)內(nèi)首個(gè) MoE(Mixture-of-Experts)大語言模型。早在上個(gè)月舉辦的數(shù)字中國(guó)論壇成立大會(huì)暨數(shù)字化發(fā)展論壇的一場(chǎng)分論壇上,MiniMax 副總裁魏偉就曾透露將于近期發(fā)布國(guó)內(nèi)首個(gè)基于 MoE 架構(gòu)的大模型,對(duì)標(biāo) OpenAI GPT-4。在 MoE 結(jié)構(gòu)下,abab6 擁有大參數(shù)帶來的處理復(fù)雜任務(wù)的能力,同時(shí)模型在單位時(shí)間內(nèi)能夠訓(xùn)練足夠多的數(shù)據(jù),計(jì)算效率也可以得到大幅提升。改進(jìn)了 abab5.5 在處理更復(fù)雜、對(duì)模型輸出有更精細(xì)要求場(chǎng)景現(xiàn)的問題。為什么選擇 MoE 架構(gòu)?那么,MoE 到底是什么?MiniMax 的大模型為何要使用使用 MoE 架構(gòu)?
MoE 架構(gòu)全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個(gè)問題被分為多個(gè)子任務(wù),并將針對(duì)每個(gè)子任務(wù)訓(xùn)練一組專家。MoE 模型將覆蓋不同學(xué)習(xí)者(專家)的不同輸入數(shù)據(jù)。
圖片來源:https ://arxiv.org/pdf/1701.06538.pdf
有
原文鏈接:對(duì)標(biāo)OpenAI GPT-4,MiniMax 國(guó)內(nèi)首個(gè) MoE 大語言模型全量上線
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課,助力你全面擁抱人工智能技術(shù)。