AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零
推理大模型有了比「人類的最后考試」更苛刻的評估基準(zhǔn)。
原標(biāo)題:AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3298字
Scale AI等推出超高難度AI推理基準(zhǔn)ENIGMAEVAL
1. **新基準(zhǔn)挑戰(zhàn)大模型推理能力:** Scale AI、Center for AI Safety和MIT的研究者聯(lián)合推出了一個名為ENIGMAEVAL的全新基準(zhǔn)測試,旨在評估大語言模型(LLM)在高難度多模態(tài)推理問題上的能力。該基準(zhǔn)比此前備受關(guān)注的“人類的最后考試”(HLE)更加苛刻,其謎題難度遠(yuǎn)超現(xiàn)有模型。
2. **ENIGMAEVAL基準(zhǔn)的特點(diǎn):** ENIGMAEVAL包含1184道謎題,這些謎題源自解謎尋寶競賽,涵蓋文字游戲、數(shù)學(xué)、密碼學(xué)、圖像分析等多個領(lǐng)域。謎題分為普通難度(Normal)和困難難度(Hard)兩類,每個謎題通常需要經(jīng)驗豐富的人花費(fèi)數(shù)小時甚至數(shù)天才能解決。基準(zhǔn)提供原始PDF圖像和結(jié)構(gòu)化文本-圖像兩種格式,分別用于測試模型的端到端能力和多模態(tài)推理能力。
3. **SOTA模型表現(xiàn)不佳:** 研究者在ENIGMAEVAL上測試了包括OpenAI o1在內(nèi)的多個最先進(jìn)的LLM。結(jié)果顯示,即使是領(lǐng)先的模型,在普通難度謎題上的準(zhǔn)確率也僅為7%左右,在困難難度謎題上的準(zhǔn)確率則為0%。這表明當(dāng)前的LLM在復(fù)雜推理任務(wù)方面仍然存在巨大差距,遠(yuǎn)不及人類解謎者。
4. **模型性能下降的原因分析:** 研究發(fā)現(xiàn),從原始PDF到結(jié)構(gòu)化文本的轉(zhuǎn)換,模型性能可能會急劇下降。這并非由于模型對復(fù)雜文檔處理能力不足,而是因為模型本身的推理能力限制。
5. **基準(zhǔn)的意義:** ENIGMAEVAL與HLE一起,構(gòu)成了一個全新的LLM基準(zhǔn)體系,通過極具挑戰(zhàn)性的任務(wù),揭示了當(dāng)前大語言模型的局限性,為未來模型的改進(jìn)提供了方向。該基準(zhǔn)測試強(qiáng)調(diào)了AI在真正理解世界方面還有很長的路要走。
6. **未來展望:** 研究者未來將繼續(xù)完善ENIGMAEVAL基準(zhǔn),并期待更多研究者參與其中,共同推動LLM的推理能力發(fā)展。DeepSeek R1并未參與本次測試,其表現(xiàn)也值得期待。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺