MiniMax震撼開源，突破傳統Transformer架構，4560億參數，支持400萬長上下文

MiniMax 擁抱 Agent 時代

原標題：MiniMax震撼開源，突破傳統Transformer架構，4560億參數，支持400萬長上下文
文章來源：機器之心
內容字數：7721字

MiniMax 開源超長上下文窗口模型，助力 2025 AI Agent 時代

新年伊始，OpenAI、Meta 和英偉達 CEO 均預測 2025 年將是 AI Agent 的元年。MiniMax 迅速行動，開源了基礎語言模型 MiniMax-Text-01 和視覺多模態模型 MiniMax-VL-01，其核心創新在于首次大規模實現新的線性注意力機制，將上下文窗口擴展至 400 萬 token，是其他模型的 20-32 倍，為 Agent 應用爆發奠定基礎。

1. MiniMax 模型的創新之處

MiniMax-Text-01 基于 Transformer 架構，其核心創新在于 Lightning Attention 線性注意力機制。該機制通過右邊積核技巧，將計算復雜度從二次降到線性，顯著提升效率。此外，MiniMax 還采用了 Hybrid-lightning 架構，結合 softmax 注意力，平衡效率和性能。模型還使用了改進的混合專家 (MoE) 架構，并優化了通信技術，解決大規模 MoE 模型的路由崩潰問題。在訓練方面，MiniMax 開發了數據打包技術，減少計算浪費，并針對 Lightning Attention 進行了多項優化。

2. MiniMax-Text-01 的性能表現

MiniMax-Text-01 擁有 32 個專家，總參數量達 4560 億。在推理時，上下文長度可達 400 萬 token。在 HumanEval、GPQA Diamond、MMLU、IFEval 和 Arena-Hard 等基準測試中，其性能與 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及其他 SOTA 開源模型相當甚至超越。尤其在長文本理解任務上，MiniMax-Text-01 的優勢顯著，在 Ruler 和 LongBench v2 基準測試中，當上下文長度超過 128k 時，其表現遠超其他模型。

3. MiniMax-VL-01：視覺語言模型

MiniMax-VL-01 在 MiniMax-Text-01 的基礎上，整合了視覺編碼器和圖像適配器，實現了多模態能力。其架構遵循 ViT-MLP-LLM 范式，并使用專有數據集和多階段訓練策略進行訓練。在各個基準測試中，MiniMax-VL-01 的表現與其他 SOTA 模型相當，甚至在某些指標上取得最佳成績。

4. 超長上下文窗口的意義

MiniMax 認為，足夠大的上下文窗口對于 AI Agent 至關重要，可以更充分地同步上下文信息，提升用戶體驗。400 萬 token 的上下文窗口并非終點，MiniMax 正在研究更高效的架構，以實現無限上下文窗口。多模態能力的加入，也預示著 Agent 將逐步進入物理世界。

MiniMax 的開源模型為 AI Agent 的發展提供了強大的技術支持，也為 2025 年 AI Agent 時代的到來鋪平了道路。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 400萬token # 4560億參數 # MiniMax # Transformer架構突破 # 超長上下文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

MiniMax震撼開源，突破傳統Transformer架構，4560億參數，支持400萬長上下文

MiniMax 擁抱 Agent 時代

MiniMax 開源超長上下文窗口模型，助力 2025 AI Agent 時代

1. MiniMax 模型的創新之處

2. MiniMax-Text-01 的性能表現

3. MiniMax-VL-01：視覺語言模型

4. 超長上下文窗口的意義

聯系作者

潑天流量來了，小紅書喜迎TikTok美國逃難者

“鍵盤敲出火星子了”！小紅書 IT 團隊加班承接 TikTok 這波潑天流量，這款 AI 搜索還趁機火了

相關文章

暫無評論

ChatGPT

玩虛擬模特？