MiniMax 發布首個 MoE 大語言模型,開放平臺日均處理數百億token
AIGC動態歡迎閱讀
原標題:MiniMax 發布首個 MoE 大語言模型,開放平臺日均處理數百億token
關鍵字:模型,議題,小米,騰訊,歷史文化
文章來源:Founder Park
內容字數:10956字
內容摘要:
今天,MiniMax 全量發布了首個 MoE 架構的大模型 abab6,參數比上一版本大一個量級,可以更好地從訓練語料中學到更精細的規律,完成更復雜的任務。
「基于 MoE 結構,abab6 可以具備大參數帶來的處理復雜任務的能力;計算效率也會得到提升,模型在單位時間內能夠訓練足夠多的數據?!?br />據悉,MiniMax 從 2023 年 6 月開始研發 MoE 模型,當前發布的是第二個版本,第一版已用于 MiniMax 的 C 端產品中。
對比法國大模型初創公司 Mistral 不久前發布的 Mistral-Medium,「abab6 在指令遵從和中文綜合能力上都優于 Mistral-Medium,在英文綜合能力上與 Mistral- Medium 旗鼓相當。」
以下內容來自 MiniMax 開放平臺。
今天,經過了半個月的部分客戶的內測和反饋,MiniMax 全量發布大語言模型 abab6,為國內首個 MoE 大語言模型。在 MoE 結構下,abab6 擁有大參數帶來的處理復雜任務的能力,同時模型在單位時間內能夠訓練足夠多的數據,計算效率也可以得到大幅提升。改進了 abab5.5 在處理
原文鏈接:MiniMax 發布首個 MoE 大語言模型,開放平臺日均處理數百億token
聯系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...