現在就能免費玩~
原標題:?MiniMax開源4M超長上下文新模型!性能比肩DeepSeek-v3、GPT-4o
文章來源:智猩猩GenAI
內容字數:3819字
MiniMax-01:400萬Token上下文窗口的開源大模型
MiniMax公司開源了其最新的大模型MiniMax-01系列,包含文本模型MiniMax-Text-01和視覺多模態模型MiniMax-VL-01。該系列模型的突出特點是擁有超長的上下文窗口,達到驚人的400萬token,這在業界尚屬首例。
1. MiniMax-Text-01:超長上下文和卓越性能
MiniMax-Text-01是一個擁有456B參數的基礎語言模型。它采用了創新的混合架構,結合了Lightning Attention、Softmax Attention和MoE,并通過多種優化策略,實現了100萬token的訓練上下文長度和400萬token的推理上下文長度。在多個基準測試中,MiniMax-Text-01展現出強大的性能,尤其在超長上下文場景下優勢明顯。例如,在4M大海撈針測試中,MiniMax-Text-01實現了100%的準確率;在Ruler基準測試中,從128K token的輸入長度開始超越所有基準模型;在LongBench v2測試中,無論是使用還是不使用思維鏈推理,都取得了最佳或顯著的成果。此外,在MTOB數據集測試中,MiniMax-Text-01展現了強大的從上下文中學習的能力。
2. MiniMax-VL-01:強大的視覺多模態能力
MiniMax-VL-01采用“ViT-MLP-LLM”框架,結合了視覺Transformer(ViT)、多層感知機(MLP)和MiniMax-Text-01。它具有動態分辨率功能,可以處理不同尺寸的圖像,并通過將圖像分割成塊進行編碼,形成完整的圖像表示。MiniMax-VL-01在多模態排行榜上表現突出,證明了其在處理復雜多模態任務中的優勢。
3. 開放性和易用性
MiniMax-01系列模型的權重已完全開源,并部署在Hailuo AI平臺上,用戶可以免費試用。此外,MiniMax公司還提供了68頁的技術論文詳細介紹模型架構和性能。模型API價格也十分親民,輸入每百萬token 0.2美元,輸出每百萬token 1.1美元。
4. 應用前景和社區反響
MiniMax公司表示,MiniMax-01系列模型是為支持未來的Agent相關應用而設計的,因為Agent需要強大的上下文處理能力和持續的內存。網友們對MiniMax-01的性能表示驚嘆,紛紛進行實測并分享結果。一些初步測試表明,MiniMax-01在處理復雜任務時的表現令人印象深刻。
5. 總結
MiniMax-01系列模型的開源,標志著大模型技術向前邁進了一大步。其超長的上下文窗口、強大的性能以及開放性和易用性,將極大地推動大模型技術的應用和發展,為Agent等領域帶來新的可能性。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。