MM-Eureka – 上海AI Lab聯合上交大等推出的多模態推理模型
MM-Eureka 是一個由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究者們共同研發的多模態推理模型。該模型利用基于規則的大規模強化學習(RL),將單模態推理中的關鍵特性,如回答長度的穩定增長、準確率獎勵和視覺頓悟時刻,成功擴展至多模態場景。
MM-Eureka是什么
MM-Eureka 是一個專門設計的多模態推理模型,開發團隊由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員組成。該模型通過規則驅動的大規模強化學習(RL),將單模態推理中的重要特性(例如穩定的回答長度增長、準確率獎勵以及視覺頓悟時刻)遷移至多模態環境中。
MM-Eureka 提供了兩個核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數據進行規則型強化學習訓練,平均性能便超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數學推理數據,在自主構建的 K12 基準測試中超過了指令模型 8.2%,在 MathVerse 上的表現也相當出色。
MM-Eureka的主要功能
- 多模態推理能力:MM-Eureka 能夠有效處理文本和視覺信息,擴展了大規模基于規則的強化學習(RL)至多模態推理領域。
- 復現關鍵特性:該模型成功在多模態空間中復現了文本 RL 系統(如 DeepSeek-R1)的核心特性,包括準確率獎勵和響應長度的穩定增長,以及反思行為的自發涌現。
- 數據高效性:在僅使用 54,000 張圖文數據進行規則型 RL 訓練的情況下,MM-Eureka 的平均性能超過了使用 1,000,000 張數據的 MPO 模型,整體基準準確率與使用 12,000,000 張數據進行 CoT SFT 訓練的模型相當。
MM-Eureka的技術原理
- 基于規則的大規模強化學習框架:MM-Eureka 基于 OpenRLHF 開發了一個高效且可擴展的多模態大規模強化學習框架,支持多種模型及 RL 算法,使得模型能夠在多模態環境中進行有效訓練,并成功復現了 DeepSeek-R1 的關鍵特性。
- 數據過濾與穩定訓練:團隊發現,數據選擇對于穩定的 RL 訓練至關重要,基于難度的數據過濾策略對訓練的穩定性起到了關鍵作用。
- 視覺頓悟時刻(Visual aha-moment):MM-Eureka 在訓練過程中展現了類似 DeepSeek-R1 的視覺頓悟時刻,表現為模型學會反思與回溯,重新審視圖像中的關鍵信息。
- 極簡的強化學習設計:在 MM-Eureka 中,極簡的 RL 設計被證明是有效的。實驗表明,添加 KL 散度會限制模型探索,導致無法觀察到響應長度的提升,因此采用簡單的獎勵函數(如準確性獎勵和格式獎勵),結合難度基礎的數據過濾策略進行穩定訓練。
- 高效的數據利用:MM-Eureka 顯示出極高的數據效率。僅用 54,000 張圖文數據進行規則型強化學習訓練,其平均性能即超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數學推理數據(指令模型的 0.05%),在自建的 K12 基準測試中超越指令模型 8.2%,在 MathVerse 上表現相當,表明在多模態推理領域,簡單的規則型 RL 設計可以顯著提升訓練效果,即使在數據量較少的情況下,也能達到與大規模訓練相當的性能。
MM-Eureka的項目地址
- Github倉庫:https://github.com/ModalMinds/MM-EUREKA
- arXiv技術論文:https://arxiv.org/pdf/2503.07365
MM-Eureka的應用場景
- 教育領域:通過強大的推理能力和反思機制,MM-Eureka 有助于學生更好地理解和解決復雜數學問題。
- 增強現實(AR)和虛擬現實(VR):在 AR 和 VR 場景中,結合視覺與語言信息,MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
- 數據分析和決策支持:MM-Eureka 的多模態推理能力使其在數據分析和決策支持方面表現優異,能夠處理復雜的圖文數據,幫助用戶從大量信息中提取關鍵信息,做出更明智的決策。
- 自動化和智能助手:作為智能助手的核心技術,MM-Eureka 能為用戶提供更智能和自然的交互體驗。
- 游戲和娛樂:在游戲和娛樂領域,MM-Eureka 的多模態推理能力可以用于研發更智能的非玩家角色(NPC)和交互式劇情。
常見問題
- MM-Eureka支持哪些類型的輸入數據?MM-Eureka 支持文本和視覺信息的多模態輸入,能夠處理復雜的圖文數據。
- 如何獲取MM-Eureka的源代碼?您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
- MM-Eureka的性能如何?MM-Eureka 展現出優秀的性能,僅使用少量數據就能超越使用大量數據訓練的模型。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...