MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文
MiniMax 擁抱 Agent 時代
原標(biāo)題:MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7721字
MiniMax 開源超長上下文窗口模型,助力 2025 AI Agent 時代
新年伊始,OpenAI、Meta 和英偉達(dá) CEO 均預(yù)測 2025 年將是 AI Agent 的元年。MiniMax 迅速行動,開源了基礎(chǔ)語言模型 MiniMax-Text-01 和視覺多模態(tài)模型 MiniMax-VL-01,其核心創(chuàng)新在于首次大規(guī)模實現(xiàn)新的線性注意力機(jī)制,將上下文窗口擴(kuò)展至 400 萬 token,是其他模型的 20-32 倍,為 Agent 應(yīng)用爆發(fā)奠定基礎(chǔ)。
1. MiniMax 模型的創(chuàng)新之處
MiniMax-Text-01 基于 Transformer 架構(gòu),其核心創(chuàng)新在于 Lightning Attention 線性注意力機(jī)制。該機(jī)制通過右邊積核技巧,將計算復(fù)雜度從二次降到線性,顯著提升效率。此外,MiniMax 還采用了 Hybrid-lightning 架構(gòu),結(jié)合 softmax 注意力,平衡效率和性能。 模型還使用了改進(jìn)的混合專家 (MoE) 架構(gòu),并優(yōu)化了通信技術(shù),解決大規(guī)模 MoE 模型的路由崩潰問題。在訓(xùn)練方面,MiniMax 開發(fā)了數(shù)據(jù)打包技術(shù),減少計算浪費(fèi),并針對 Lightning Attention 進(jìn)行了多項優(yōu)化。
2. MiniMax-Text-01 的性能表現(xiàn)
MiniMax-Text-01 擁有 32 個專家,總參數(shù)量達(dá) 4560 億。在推理時,上下文長度可達(dá) 400 萬 token。在 HumanEval、GPQA Diamond、MMLU、IFEval 和 Arena-Hard 等基準(zhǔn)測試中,其性能與 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及其他 SOTA 開源模型相當(dāng)甚至超越。尤其在長文本理解任務(wù)上,MiniMax-Text-01 的優(yōu)勢顯著,在 Ruler 和 LongBench v2 基準(zhǔn)測試中,當(dāng)上下文長度超過 128k 時,其表現(xiàn)遠(yuǎn)超其他模型。
3. MiniMax-VL-01:視覺語言模型
MiniMax-VL-01 在 MiniMax-Text-01 的基礎(chǔ)上,整合了視覺編碼器和圖像適配器,實現(xiàn)了多模態(tài)能力。其架構(gòu)遵循 ViT-MLP-LLM 范式,并使用專有數(shù)據(jù)集和多階段訓(xùn)練策略進(jìn)行訓(xùn)練。在各個基準(zhǔn)測試中,MiniMax-VL-01 的表現(xiàn)與其他 SOTA 模型相當(dāng),甚至在某些指標(biāo)上取得最佳成績。
4. 超長上下文窗口的意義
MiniMax 認(rèn)為,足夠大的上下文窗口對于 AI Agent 至關(guān)重要,可以更充分地同步上下文信息,提升用戶體驗。400 萬 token 的上下文窗口并非終點(diǎn),MiniMax 正在研究更高效的架構(gòu),以實現(xiàn)無限上下文窗口。 多模態(tài)能力的加入,也預(yù)示著 Agent 將逐步進(jìn)入物理世界。
MiniMax 的開源模型為 AI Agent 的發(fā)展提供了強(qiáng)大的技術(shù)支持,也為 2025 年 AI Agent 時代的到來鋪平了道路。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺