<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

        推理大模型有了比「人類的最后考試」更苛刻的評估基準(zhǔn)。

        AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

        原標(biāo)題:AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):3298字

        Scale AI等推出超高難度AI推理基準(zhǔn)ENIGMAEVAL

        1. **新基準(zhǔn)挑戰(zhàn)大模型推理能力:** Scale AI、Center for AI Safety和MIT的研究者聯(lián)合推出了一個名為ENIGMAEVAL的全新基準(zhǔn)測試,旨在評估大語言模型(LLM)在高難度多模態(tài)推理問題上的能力。該基準(zhǔn)比此前備受關(guān)注的“人類的最后考試”(HLE)更加苛刻,其謎題難度遠(yuǎn)超現(xiàn)有模型。

        2. **ENIGMAEVAL基準(zhǔn)的特點(diǎn):** ENIGMAEVAL包含1184道謎題,這些謎題源自解謎尋寶競賽,涵蓋文字游戲、數(shù)學(xué)、密碼學(xué)、圖像分析等多個領(lǐng)域。謎題分為普通難度(Normal)和困難難度(Hard)兩類,每個謎題通常需要經(jīng)驗豐富的人花費(fèi)數(shù)小時甚至數(shù)天才能解決。基準(zhǔn)提供原始PDF圖像和結(jié)構(gòu)化文本-圖像兩種格式,分別用于測試模型的端到端能力和多模態(tài)推理能力。

        3. **SOTA模型表現(xiàn)不佳:** 研究者在ENIGMAEVAL上測試了包括OpenAI o1在內(nèi)的多個最先進(jìn)的LLM。結(jié)果顯示,即使是領(lǐng)先的模型,在普通難度謎題上的準(zhǔn)確率也僅為7%左右,在困難難度謎題上的準(zhǔn)確率則為0%。這表明當(dāng)前的LLM在復(fù)雜推理任務(wù)方面仍然存在巨大差距,遠(yuǎn)不及人類解謎者。

        4. **模型性能下降的原因分析:** 研究發(fā)現(xiàn),從原始PDF到結(jié)構(gòu)化文本的轉(zhuǎn)換,模型性能可能會急劇下降。這并非由于模型對復(fù)雜文檔處理能力不足,而是因為模型本身的推理能力限制。

        5. **基準(zhǔn)的意義:** ENIGMAEVAL與HLE一起,構(gòu)成了一個全新的LLM基準(zhǔn)體系,通過極具挑戰(zhàn)性的任務(wù),揭示了當(dāng)前大語言模型的局限性,為未來模型的改進(jìn)提供了方向。該基準(zhǔn)測試強(qiáng)調(diào)了AI在真正理解世界方面還有很長的路要走。

        6. **未來展望:** 研究者未來將繼續(xù)完善ENIGMAEVAL基準(zhǔn),并期待更多研究者參與其中,共同推動LLM的推理能力發(fā)展。DeepSeek R1并未參與本次測試,其表現(xiàn)也值得期待。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久精品亚洲一区二区三区浴池| 国产免费AV片在线播放唯爱网| 久久精品国产亚洲AV网站| 全部免费毛片在线播放| 亚洲人成人网站18禁| 亚洲一区二区三区香蕉| 日韩精品无码免费视频| 亚洲AV之男人的天堂| 无码一区二区三区免费| 亚洲最新视频在线观看| 国产免费变态视频网址网站| 亚洲国产日韩a在线播放| 亚洲人成无码网站| 妞干网手机免费视频| 精品亚洲国产成人av| gogo全球高清大胆亚洲| 一级毛片**免费看试看20分钟| 亚洲伊人tv综合网色| 又粗又硬又黄又爽的免费视频 | 亚洲人成网站日本片| 亚洲国产精品成人久久蜜臀| 四虎免费影院ww4164h| 亚洲熟女www一区二区三区| 亚洲成a人片在线观看无码 | 无码精品人妻一区二区三区免费看 | 亚洲AV无一区二区三区久久| 国产精品视_精品国产免费| 免费A级毛片无码视频| fc2成年免费共享视频18| 亚洲一区二区无码偷拍| 亚洲AV日韩精品久久久久久久| 深夜国产福利99亚洲视频| 最近中文字幕无吗免费高清| 免费无码VA一区二区三区| 精品国产污污免费网站入口在线 | 亚洲色自偷自拍另类小说| 成人免费在线观看网站| 四虎最新永久免费视频| 免费人成网站在线观看不卡 | 黄页网站在线免费观看| 亚洲国产精品久久|