DeepSeek、OpenAI、Kimi視覺推理到底哪家強(qiáng)?港中文MMLab推出推理基準(zhǔn)MME-COT
全方位理解多模態(tài)模型CoT能力

原標(biāo)題:DeepSeek、OpenAI、Kimi視覺推理到底哪家強(qiáng)?港中文MMLab推出推理基準(zhǔn)MME-COT
文章來源:量子位
內(nèi)容字?jǐn)?shù):6742字
港中文MMLab提出MME-CoT:全面評估大型多模態(tài)模型視覺推理能力
本文總結(jié)了港中文MMLab研究者提出的MME-CoT基準(zhǔn)測試,該基準(zhǔn)旨在全面評估大型多模態(tài)模型(LMMs)的視覺推理能力。MME-CoT超越了以往僅評估最終答案正確性的方法,細(xì)粒度地評估了視覺鏈?zhǔn)剿季S(CoT)的質(zhì)量、魯棒性和效率。
1. MME-CoT的創(chuàng)新之處
與以往LMM基準(zhǔn)測試不同,MME-CoT提出了一個嚴(yán)格的多方面評估框架,著重研究視覺CoT的不同方面。它包含數(shù)學(xué)、科學(xué)、OCR、邏輯、時空和通用場景六大領(lǐng)域,涵蓋17個子類,共包含1130個精選問題和3865個關(guān)鍵步驟標(biāo)注。MME-CoT區(qū)分了感知任務(wù)和推理任務(wù),避免了以往基準(zhǔn)測試中兩類任務(wù)混淆的問題。
2. 細(xì)粒度的評估指標(biāo)
MME-CoT設(shè)計(jì)了三個評估方向,分別回答三個關(guān)鍵問題:
- CoT的質(zhì)量: 使用召回率(Recall)和精確率(Precision)兩個指標(biāo)評估CoT步驟的有用性和準(zhǔn)確性,避免了模型通過錯誤邏輯得到正確答案的夸大現(xiàn)象。GPT-4被用來輔助評估。
- CoT的魯棒性: 通過比較感知任務(wù)和推理任務(wù)在直接回答和CoT回答兩種Prompt下的表現(xiàn),評估CoT對不同任務(wù)類型的穩(wěn)定性(Stability)和有效性(Efficacy),考察CoT是否會對感知任務(wù)產(chǎn)生負(fù)面影響。
- CoT的效率: 使用相關(guān)比例(Relevance Rate)和反思質(zhì)量(Reflection Quality)兩個指標(biāo)評估CoT的推理效率,考察長CoT中步驟的相關(guān)性和反思步驟的有效性。
3. 實(shí)驗(yàn)結(jié)果與結(jié)論
研究者們在MME-CoT上測試了13個現(xiàn)有的LMM和兩個最新的LLM (DeepSeek-R1和o3-mini)。實(shí)驗(yàn)結(jié)果顯示:
- CoT質(zhì)量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
- CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
- CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1
此外,研究還發(fā)現(xiàn):
- 長CoT并不一定包含所有關(guān)鍵步驟,模型有時會跳過中間步驟得出正確答案。
- 更大的模型參數(shù)量通常能更好地掌握推理能力。
- 模型的反思錯誤類型多樣,包括無效反思、不完整、重復(fù)和干擾等。
4. MME-CoT的意義
MME-CoT為評估LMM的視覺推理能力提供了一個系統(tǒng)化的基準(zhǔn),指明了該領(lǐng)域的關(guān)鍵發(fā)展方向。它揭示了現(xiàn)有模型在推理質(zhì)量、魯棒性和計(jì)算效率方面的不足,為后續(xù)研究奠定了重要基礎(chǔ),將推動LMM實(shí)現(xiàn)更強(qiáng)大、更可靠的視覺推理能力。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號