MM-Eureka

AI工具2個月前更新 AI工具集

594 0 0

MM-Eureka – 上海AI Lab聯合上交大等推出的多模態推理模型

MM-Eureka 是一個由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究者們共同研發的多模態推理模型。該模型利用基于規則的大規模強化學習（RL），將單模態推理中的關鍵特性，如回答長度的穩定增長、準確率獎勵和視覺頓悟時刻，成功擴展至多模態場景。

MM-Eureka是什么

MM-Eureka 是一個專門設計的多模態推理模型，開發團隊由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員組成。該模型通過規則驅動的大規模強化學習（RL），將單模態推理中的重要特性（例如穩定的回答長度增長、準確率獎勵以及視覺頓悟時刻）遷移至多模態環境中。

MM-Eureka 提供了兩個核心模型：MM-Eureka-8B 和 MM-Eureka-Zero-38B，分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數據進行規則型強化學習訓練，平均性能便超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數學推理數據，在自主構建的 K12 基準測試中超過了指令模型 8.2%，在 MathVerse 上的表現也相當出色。

MM-Eureka

MM-Eureka的主要功能

多模態推理能力：MM-Eureka 能夠有效處理文本和視覺信息，擴展了大規模基于規則的強化學習（RL）至多模態推理領域。
復現關鍵特性：該模型成功在多模態空間中復現了文本 RL 系統（如 DeepSeek-R1）的核心特性，包括準確率獎勵和響應長度的穩定增長，以及反思行為的自發涌現。
數據高效性：在僅使用 54,000 張圖文數據進行規則型 RL 訓練的情況下，MM-Eureka 的平均性能超過了使用 1,000,000 張數據的 MPO 模型，整體基準準確率與使用 12,000,000 張數據進行 CoT SFT 訓練的模型相當。

MM-Eureka的技術原理

基于規則的大規模強化學習框架：MM-Eureka 基于 OpenRLHF 開發了一個高效且可擴展的多模態大規模強化學習框架，支持多種模型及 RL 算法，使得模型能夠在多模態環境中進行有效訓練，并成功復現了 DeepSeek-R1 的關鍵特性。
數據過濾與穩定訓練：團隊發現，數據選擇對于穩定的 RL 訓練至關重要，基于難度的數據過濾策略對訓練的穩定性起到了關鍵作用。
視覺頓悟時刻（Visual aha-moment）：MM-Eureka 在訓練過程中展現了類似 DeepSeek-R1 的視覺頓悟時刻，表現為模型學會反思與回溯，重新審視圖像中的關鍵信息。
極簡的強化學習設計：在 MM-Eureka 中，極簡的 RL 設計被證明是有效的。實驗表明，添加 KL 散度會限制模型探索，導致無法觀察到響應長度的提升，因此采用簡單的獎勵函數（如準確性獎勵和格式獎勵），結合難度基礎的數據過濾策略進行穩定訓練。
高效的數據利用：MM-Eureka 顯示出極高的數據效率。僅用 54,000 張圖文數據進行規則型強化學習訓練，其平均性能即超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數學推理數據（指令模型的 0.05%），在自建的 K12 基準測試中超越指令模型 8.2%，在 MathVerse 上表現相當，表明在多模態推理領域，簡單的規則型 RL 設計可以顯著提升訓練效果，即使在數據量較少的情況下，也能達到與大規模訓練相當的性能。

MM-Eureka的項目地址

Github倉庫：https://github.com/ModalMinds/MM-EUREKA
arXiv技術論文：https://arxiv.org/pdf/2503.07365

MM-Eureka的應用場景

教育領域：通過強大的推理能力和反思機制，MM-Eureka 有助于學生更好地理解和解決復雜數學問題。
增強現實（AR）和虛擬現實（VR）：在 AR 和 VR 場景中，結合視覺與語言信息，MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
數據分析和決策支持：MM-Eureka 的多模態推理能力使其在數據分析和決策支持方面表現優異，能夠處理復雜的圖文數據，幫助用戶從大量信息中提取關鍵信息，做出更明智的決策。
自動化和智能助手：作為智能助手的核心技術，MM-Eureka 能為用戶提供更智能和自然的交互體驗。
游戲和娛樂：在游戲和娛樂領域，MM-Eureka 的多模態推理能力可以用于研發更智能的非玩家角色（NPC）和交互式劇情。

常見問題

MM-Eureka支持哪些類型的輸入數據？MM-Eureka 支持文本和視覺信息的多模態輸入，能夠處理復雜的圖文數據。
如何獲取MM-Eureka的源代碼？您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
MM-Eureka的性能如何？MM-Eureka 展現出優秀的性能，僅使用少量數據就能超越使用大量數據訓練的模型。

閱讀原文