<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文

        MiniMax 擁抱 Agent 時代

        MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文

        原標(biāo)題:MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):7721字

        MiniMax 開源超長上下文窗口模型,助力 2025 AI Agent 時代

        新年伊始,OpenAI、Meta 和英偉達(dá) CEO 均預(yù)測 2025 年將是 AI Agent 的元年。MiniMax 迅速行動,開源了基礎(chǔ)語言模型 MiniMax-Text-01 和視覺多模態(tài)模型 MiniMax-VL-01,其核心創(chuàng)新在于首次大規(guī)模實現(xiàn)新的線性注意力機(jī)制,將上下文窗口擴(kuò)展至 400 萬 token,是其他模型的 20-32 倍,為 Agent 應(yīng)用爆發(fā)奠定基礎(chǔ)。

        1. MiniMax 模型的創(chuàng)新之處

        MiniMax-Text-01 基于 Transformer 架構(gòu),其核心創(chuàng)新在于 Lightning Attention 線性注意力機(jī)制。該機(jī)制通過右邊積核技巧,將計算復(fù)雜度從二次降到線性,顯著提升效率。此外,MiniMax 還采用了 Hybrid-lightning 架構(gòu),結(jié)合 softmax 注意力,平衡效率和性能。 模型還使用了改進(jìn)的混合專家 (MoE) 架構(gòu),并優(yōu)化了通信技術(shù),解決大規(guī)模 MoE 模型的路由崩潰問題。在訓(xùn)練方面,MiniMax 開發(fā)了數(shù)據(jù)打包技術(shù),減少計算浪費(fèi),并針對 Lightning Attention 進(jìn)行了多項優(yōu)化。

        2. MiniMax-Text-01 的性能表現(xiàn)

        MiniMax-Text-01 擁有 32 個專家,總參數(shù)量達(dá) 4560 億。在推理時,上下文長度可達(dá) 400 萬 token。在 HumanEval、GPQA Diamond、MMLU、IFEval 和 Arena-Hard 等基準(zhǔn)測試中,其性能與 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及其他 SOTA 開源模型相當(dāng)甚至超越。尤其在長文本理解任務(wù)上,MiniMax-Text-01 的優(yōu)勢顯著,在 Ruler 和 LongBench v2 基準(zhǔn)測試中,當(dāng)上下文長度超過 128k 時,其表現(xiàn)遠(yuǎn)超其他模型。

        3. MiniMax-VL-01:視覺語言模型

        MiniMax-VL-01 在 MiniMax-Text-01 的基礎(chǔ)上,整合了視覺編碼器和圖像適配器,實現(xiàn)了多模態(tài)能力。其架構(gòu)遵循 ViT-MLP-LLM 范式,并使用專有數(shù)據(jù)集和多階段訓(xùn)練策略進(jìn)行訓(xùn)練。在各個基準(zhǔn)測試中,MiniMax-VL-01 的表現(xiàn)與其他 SOTA 模型相當(dāng),甚至在某些指標(biāo)上取得最佳成績。

        4. 超長上下文窗口的意義

        MiniMax 認(rèn)為,足夠大的上下文窗口對于 AI Agent 至關(guān)重要,可以更充分地同步上下文信息,提升用戶體驗。400 萬 token 的上下文窗口并非終點(diǎn),MiniMax 正在研究更高效的架構(gòu),以實現(xiàn)無限上下文窗口。 多模態(tài)能力的加入,也預(yù)示著 Agent 將逐步進(jìn)入物理世界。

        MiniMax 的開源模型為 AI Agent 的發(fā)展提供了強(qiáng)大的技術(shù)支持,也為 2025 年 AI Agent 時代的到來鋪平了道路。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产美女a做受大片免费| 欧美好看的免费电影在线观看| 亚洲区小说区图片区| 最新久久免费视频| 亚洲情a成黄在线观看动漫尤物| 99久久免费看国产精品| 一本天堂ⅴ无码亚洲道久久| 四虎永久免费影院在线| AAA日本高清在线播放免费观看| 亚洲国产精品综合久久久| 日韩免费视频网站| 99久久免费国产特黄| 牛牛在线精品免费视频观看| 久久精品夜色国产亚洲av| 成人毛片免费观看| 久久精品免费网站网| 亚洲三级在线视频| 亚洲精品无码久久毛片| 高清国语自产拍免费视频国产| a级毛片免费高清毛片视频| 国产成人精品亚洲一区| 日韩亚洲Av人人夜夜澡人人爽 | 曰皮全部过程视频免费国产30分钟 | 欧美亚洲国产SUV| 国产AV无码专区亚洲AV毛网站| 美女网站免费福利视频| www免费插插视频| 亚洲 暴爽 AV人人爽日日碰| 亚洲色WWW成人永久网址| 成年网站免费视频A在线双飞| 亚洲精品国产日韩无码AV永久免费网| 亚洲伊人久久大香线蕉啊| 国产精品xxxx国产喷水亚洲国产精品无码久久一区| 99爱视频99爱在线观看免费| 黄页免费在线观看| 视频免费1区二区三区| 亚洲人成色在线观看| 久久亚洲私人国产精品| 亚洲综合在线视频| 亚洲精品午夜在线观看| 日韩亚洲一区二区三区|