推理大模型有了比「人類的最后考試」更苛刻的評估基準。
原標題:AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零
文章來源:機器之心
內容字數:3298字
Scale AI等推出超高難度AI推理基準ENIGMAEVAL
1. **新基準挑戰大模型推理能力:** Scale AI、Center for AI Safety和MIT的研究者聯合推出了一個名為ENIGMAEVAL的全新基準測試,旨在評估大語言模型(LLM)在高難度多模態推理問題上的能力。該基準比此前備受關注的“人類的最后考試”(HLE)更加苛刻,其謎題難度遠超現有模型。
2. **ENIGMAEVAL基準的特點:** ENIGMAEVAL包含1184道謎題,這些謎題源自解謎尋寶競賽,涵蓋文字游戲、數學、密碼學、圖像分析等多個領域。謎題分為普通難度(Normal)和困難難度(Hard)兩類,每個謎題通常需要經驗豐富的人花費數小時甚至數天才能解決。基準提供原始PDF圖像和結構化文本-圖像兩種格式,分別用于測試模型的端到端能力和多模態推理能力。
3. **SOTA模型表現不佳:** 研究者在ENIGMAEVAL上測試了包括OpenAI o1在內的多個最先進的LLM。結果顯示,即使是領先的模型,在普通難度謎題上的準確率也僅為7%左右,在困難難度謎題上的準確率則為0%。這表明當前的LLM在復雜推理任務方面仍然存在巨大差距,遠不及人類解謎者。
4. **模型性能下降的原因分析:** 研究發現,從原始PDF到結構化文本的轉換,模型性能可能會急劇下降。這并非由于模型對復雜文檔處理能力不足,而是因為模型本身的推理能力限制。
5. **基準的意義:** ENIGMAEVAL與HLE一起,構成了一個全新的LLM基準體系,通過極具挑戰性的任務,揭示了當前大語言模型的局限性,為未來模型的改進提供了方向。該基準測試強調了AI在真正理解世界方面還有很長的路要走。
6. **未來展望:** 研究者未來將繼續完善ENIGMAEVAL基準,并期待更多研究者參與其中,共同推動LLM的推理能力發展。DeepSeek R1并未參與本次測試,其表現也值得期待。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺