AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

推理大模型有了比「人類的最后考試」更苛刻的評估基準(zhǔn)。

原標(biāo)題：AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3298字

Scale AI等推出超高難度AI推理基準(zhǔn)ENIGMAEVAL

1. **新基準(zhǔn)挑戰(zhàn)大模型推理能力：** Scale AI、Center for AI Safety和MIT的研究者聯(lián)合推出了一個名為ENIGMAEVAL的全新基準(zhǔn)測試，旨在評估大語言模型（LLM）在高難度多模態(tài)推理問題上的能力。該基準(zhǔn)比此前備受關(guān)注的“人類的最后考試”（HLE）更加苛刻，其謎題難度遠(yuǎn)超現(xiàn)有模型。

2. **ENIGMAEVAL基準(zhǔn)的特點(diǎn)：** ENIGMAEVAL包含1184道謎題，這些謎題源自解謎尋寶競賽，涵蓋文字游戲、數(shù)學(xué)、密碼學(xué)、圖像分析等多個領(lǐng)域。謎題分為普通難度（Normal）和困難難度（Hard）兩類，每個謎題通常需要經(jīng)驗豐富的人花費(fèi)數(shù)小時甚至數(shù)天才能解決。基準(zhǔn)提供原始PDF圖像和結(jié)構(gòu)化文本-圖像兩種格式，分別用于測試模型的端到端能力和多模態(tài)推理能力。

3. **SOTA模型表現(xiàn)不佳：** 研究者在ENIGMAEVAL上測試了包括OpenAI o1在內(nèi)的多個最先進(jìn)的LLM。結(jié)果顯示，即使是領(lǐng)先的模型，在普通難度謎題上的準(zhǔn)確率也僅為7%左右，在困難難度謎題上的準(zhǔn)確率則為0%。這表明當(dāng)前的LLM在復(fù)雜推理任務(wù)方面仍然存在巨大差距，遠(yuǎn)不及人類解謎者。

4. **模型性能下降的原因分析：** 研究發(fā)現(xiàn)，從原始PDF到結(jié)構(gòu)化文本的轉(zhuǎn)換，模型性能可能會急劇下降。這并非由于模型對復(fù)雜文檔處理能力不足，而是因為模型本身的推理能力限制。

5. **基準(zhǔn)的意義：** ENIGMAEVAL與HLE一起，構(gòu)成了一個全新的LLM基準(zhǔn)體系，通過極具挑戰(zhàn)性的任務(wù)，揭示了當(dāng)前大語言模型的局限性，為未來模型的改進(jìn)提供了方向。該基準(zhǔn)測試強(qiáng)調(diào)了AI在真正理解世界方面還有很長的路要走。

6. **未來展望：** 研究者未來將繼續(xù)完善ENIGMAEVAL基準(zhǔn)，并期待更多研究者參與其中，共同推動LLM的推理能力發(fā)展。DeepSeek R1并未參與本次測試，其表現(xiàn)也值得期待。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# AI解謎能力極限 # Gemini20FlashThinking局限性 # 人工智能認(rèn)知能力缺陷 # 復(fù)雜問題求解算法 # 大模型瓶頸

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

推理大模型有了比「人類的最后考試」更苛刻的評估基準(zhǔn)。

Scale AI等推出超高難度AI推理基準(zhǔn)ENIGMAEVAL

聯(lián)系作者

Llama模仿Diffusion多模態(tài)漲分30%！不卷數(shù)據(jù)不燒卡，只需共享注意力分布

LLM推理暴漲，數(shù)學(xué)邏輯開掛！ DeepSeek等華人團(tuán)隊新大招，Ai2大牛狂點(diǎn)贊

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)