MiniMax 發布首個 MoE 大語言模型，開放平臺日均處理數百億token

AIGC動態2年前 (2024)發布 Founder Park

AIGC動態歡迎閱讀

原標題：MiniMax 發布首個 MoE 大語言模型，開放平臺日均處理數百億token
關鍵字：模型,議題,小米,騰訊,歷史文化
文章來源：Founder Park
內容字數：10956字

內容摘要：

今天，MiniMax 全量發布了首個 MoE 架構的大模型 abab6，參數比上一版本大一個量級，可以更好地從訓練語料中學到更精細的規律，完成更復雜的任務。
「基于 MoE 結構，abab6 可以具備大參數帶來的處理復雜任務的能力；計算效率也會得到提升，模型在單位時間內能夠訓練足夠多的數據。」
據悉，MiniMax 從 2023 年 6 月開始研發 MoE 模型，當前發布的是第二個版本，第一版已用于 MiniMax 的 C 端產品中。
對比法國大模型初創公司 Mistral 不久前發布的 Mistral-Medium，「abab6 在指令遵從和中文綜合能力上都優于 Mistral-Medium，在英文綜合能力上與 Mistral- Medium 旗鼓相當。」
以下內容來自 MiniMax 開放平臺。
今天，經過了半個月的部分客戶的內測和反饋，MiniMax 全量發布大語言模型 abab6，為國內首個 MoE 大語言模型。在 MoE 結構下，abab6 擁有大參數帶來的處理復雜任務的能力，同時模型在單位時間內能夠訓練足夠多的數據，計算效率也可以得到大幅提升。改進了 abab5.5 在處理

原文鏈接：MiniMax 發布首個 MoE 大語言模型，開放平臺日均處理數百億token