<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        MM-Eureka

        AI工具2個月前更新 AI工具集
        594 0 0

        MM-Eureka – 上海AI Lab聯合上交大等推出的多模態推理模型

        MM-Eureka 是一個由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究者們共同研發的多模態推理模型。該模型利用基于規則的大規模強化學習(RL),將單模態推理中的關鍵特性,如回答長度的穩定增長、準確率獎勵和視覺頓悟時刻,成功擴展至多模態場景。

        MM-Eureka是什么

        MM-Eureka 是一個專門設計的多模態推理模型,開發團隊由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員組成。該模型通過規則驅動的大規模強化學習(RL),將單模態推理中的重要特性(例如穩定的回答長度增長、準確率獎勵以及視覺頓悟時刻)遷移至多模態環境中。

        MM-Eureka 提供了兩個核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數據進行規則型強化學習訓練,平均性能便超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數學推理數據,在自主構建的 K12 基準測試中超過了指令模型 8.2%,在 MathVerse 上的表現也相當出色。

        MM-Eureka

        MM-Eureka的主要功能

        • 多模態推理能力:MM-Eureka 能夠有效處理文本和視覺信息,擴展了大規模基于規則的強化學習(RL)至多模態推理領域。
        • 復現關鍵特性:該模型成功在多模態空間中復現了文本 RL 系統(如 DeepSeek-R1)的核心特性,包括準確率獎勵和響應長度的穩定增長,以及反思行為的自發涌現。
        • 數據高效性:在僅使用 54,000 張圖文數據進行規則型 RL 訓練的情況下,MM-Eureka 的平均性能超過了使用 1,000,000 張數據的 MPO 模型,整體基準準確率與使用 12,000,000 張數據進行 CoT SFT 訓練的模型相當。

        MM-Eureka的技術原理

        • 基于規則的大規模強化學習框架:MM-Eureka 基于 OpenRLHF 開發了一個高效且可擴展的多模態大規模強化學習框架,支持多種模型及 RL 算法,使得模型能夠在多模態環境中進行有效訓練,并成功復現了 DeepSeek-R1 的關鍵特性。
        • 數據過濾與穩定訓練:團隊發現,數據選擇對于穩定的 RL 訓練至關重要,基于難度的數據過濾策略對訓練的穩定性起到了關鍵作用。
        • 視覺頓悟時刻(Visual aha-moment):MM-Eureka 在訓練過程中展現了類似 DeepSeek-R1 的視覺頓悟時刻,表現為模型學會反思與回溯,重新審視圖像中的關鍵信息。
        • 極簡的強化學習設計:在 MM-Eureka 中,極簡的 RL 設計被證明是有效的。實驗表明,添加 KL 散度會限制模型探索,導致無法觀察到響應長度的提升,因此采用簡單的獎勵函數(如準確性獎勵和格式獎勵),結合難度基礎的數據過濾策略進行穩定訓練。
        • 高效的數據利用:MM-Eureka 顯示出極高的數據效率。僅用 54,000 張圖文數據進行規則型強化學習訓練,其平均性能即超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數學推理數據(指令模型的 0.05%),在自建的 K12 基準測試中超越指令模型 8.2%,在 MathVerse 上表現相當,表明在多模態推理領域,簡單的規則型 RL 設計可以顯著提升訓練效果,即使在數據量較少的情況下,也能達到與大規模訓練相當的性能。

        MM-Eureka的項目地址

        MM-Eureka的應用場景

        • 教育領域:通過強大的推理能力和反思機制,MM-Eureka 有助于學生更好地理解和解決復雜數學問題。
        • 增強現實(AR)和虛擬現實(VR):在 AR 和 VR 場景中,結合視覺與語言信息,MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
        • 數據分析和決策支持:MM-Eureka 的多模態推理能力使其在數據分析和決策支持方面表現優異,能夠處理復雜的圖文數據,幫助用戶從大量信息中提取關鍵信息,做出更明智的決策。
        • 自動化和智能助手:作為智能助手的核心技術,MM-Eureka 能為用戶提供更智能和自然的交互體驗。
        • 游戲和娛樂:在游戲和娛樂領域,MM-Eureka 的多模態推理能力可以用于研發更智能的非玩家角色(NPC)和交互式劇情。

        常見問題

        • MM-Eureka支持哪些類型的輸入數據?MM-Eureka 支持文本和視覺信息的多模態輸入,能夠處理復雜的圖文數據。
        • 如何獲取MM-Eureka的源代碼?您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
        • MM-Eureka的性能如何?MM-Eureka 展現出優秀的性能,僅使用少量數據就能超越使用大量數據訓練的模型。
        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲日韩精品射精日| 中文字幕久久亚洲一区| 亚洲成在人线电影天堂色| 成人网站免费大全日韩国产| 亚洲综合另类小说色区色噜噜| 特级毛片全部免费播放| 免费va人成视频网站全| 午夜成人无码福利免费视频| 久久精品国产亚洲一区二区三区| 成人久久久观看免费毛片| 老司机亚洲精品影视www| 免费看少妇高潮成人片| 久久亚洲精品无码VA大香大香| 7x7x7x免费在线观看| 亚洲一级免费毛片| 免费看国产成年无码AV片| 亚洲第一综合天堂另类专| 亚洲成?v人片天堂网无码| 成人无码视频97免费| 久久国产精品亚洲一区二区| 67pao强力打造高清免费| 色在线亚洲视频www| 国产国产人免费人成免费视频| 一级做α爱过程免费视频| 亚洲精品国产精品乱码视色| 97久久免费视频| 亚洲另类无码一区二区三区| 亚洲精品国产成人影院| 香港a毛片免费观看| 亚洲国产综合精品中文第一| 亚洲AV蜜桃永久无码精品| 国产精品白浆在线观看免费| 久久久国产亚洲精品| 亚洲国产精品无码久久青草| 免费人成视频在线观看网站| 国产人成亚洲第一网站在线播放| 国产免费黄色大片| 免费精品无码AV片在线观看 | 2048亚洲精品国产| 最近中文字幕完整版免费高清| 最新亚洲精品国偷自产在线 |