DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

全方位理解多模態模型CoT能力

原標題：DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT
文章來源：量子位
內容字數：6742字

港中文MMLab提出MME-CoT：全面評估大型多模態模型視覺推理能力

本文總結了港中文MMLab研究者提出的MME-CoT基準測試，該基準旨在全面評估大型多模態模型(LMMs)的視覺推理能力。MME-CoT超越了以往僅評估最終答案正確性的方法，細粒度地評估了視覺鏈式思維(CoT)的質量、魯棒性和效率。

1. MME-CoT的創新之處

與以往LMM基準測試不同，MME-CoT提出了一個嚴格的多方面評估框架，著重研究視覺CoT的不同方面。它包含數學、科學、OCR、邏輯、時空和通用場景六大領域，涵蓋17個子類，共包含1130個精選問題和3865個關鍵步驟標注。MME-CoT區分了感知任務和推理任務，避免了以往基準測試中兩類任務混淆的問題。

2. 細粒度的評估指標

MME-CoT設計了三個評估方向，分別回答三個關鍵問題：

CoT的質量： 使用召回率(Recall)和精確率(Precision)兩個指標評估CoT步驟的有用性和準確性，避免了模型通過錯誤邏輯得到正確答案的夸大現象。GPT-4被用來輔助評估。
CoT的魯棒性： 通過比較感知任務和推理任務在直接回答和CoT回答兩種Prompt下的表現，評估CoT對不同任務類型的穩定性(Stability)和有效性(Efficacy)，考察CoT是否會對感知任務產生負面影響。
CoT的效率： 使用相關比例(Relevance Rate)和反思質量(Reflection Quality)兩個指標評估CoT的推理效率，考察長CoT中步驟的相關性和反思步驟的有效性。

3. 實驗結果與結論

研究者們在MME-CoT上測試了13個現有的LMM和兩個最新的LLM (DeepSeek-R1和o3-mini)。實驗結果顯示：

CoT質量：Kimi k1.5 > DeepSeek-R1 >> o3-mini
CoT魯棒性：o3-mini > Kimi k1.5 > DeepSeek-R1
CoT效率：o3-mini > Kimi k1.5 > DeepSeek-R1

此外，研究還發現：

長CoT并不一定包含所有關鍵步驟，模型有時會跳過中間步驟得出正確答案。
更大的模型參數量通常能更好地掌握推理能力。
模型的反思錯誤類型多樣，包括無效反思、不完整、重復和干擾等。

4. MME-CoT的意義

MME-CoT為評估LMM的視覺推理能力提供了一個系統化的基準，指明了該領域的關鍵發展方向。它揭示了現有模型在推理質量、魯棒性和計算效率方面的不足，為后續研究奠定了重要基礎，將推動LMM實現更強大、更可靠的視覺推理能力。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # MME-COT # 基準測試 # 多模態推理 # 視覺推理 # 鏈式思維推理

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

全方位理解多模態模型CoT能力

港中文MMLab提出MME-CoT：全面評估大型多模態模型視覺推理能力

1. MME-CoT的創新之處

2. 細粒度的評估指標

3. 實驗結果與結論

4. MME-CoT的意義

聯系作者

《科學》重磅：從源頭攻克帕金森病！復旦團隊成功阻斷毒性“種子”傳播

OpenAI 七年霸權為何一夜崩塌？微軟撤資1600億暴露出AI戰爭終極規則：數據即彈藥，推理即戰場

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點