<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型

        AIGC動態5個月前發布 量子位
        346 0 0

        問題關鍵在于信息處理維度

        o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型

        原標題:o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型
        文章來源:量子位
        內容字數:3327字

        大模型在ARC-AGI推理任務中的局限性

        本文總結了關于大語言模型(LLM)在ARC-AGI超難推理任務上表現的研究發現。研究表明,模型性能并非完全取決于任務難度,而是與任務規模密切相關。特別是網格規模對模型表現的影響尤為顯著。

        1. 網格規模與模型性能的負相關關系

        研究人員發現,在ARC-AGI任務中,包含色塊網格的規模越大,大模型(包括o3、o1、o1 mini以及Claude)的表現越差。 o3雖然在較小規模的網格上表現出色,但在網格數量達到1024個左右時,其性能下降趨勢明顯加劇。

        2. 實驗驗證與數據分析

        通過將單個網格細分成更小的網格進行實驗,研究人員進一步驗證了網格規模的影響。即使是原本能夠正確解答的題目,在增加網格數量后,模型的準確率也顯著下降。對ARC數據集的統計分析也表明,規模為1024像素的題目數量最多,這與o3性能下降的拐點相吻合。

        3. 模型與人類的差異化表現

        研究指出,人類在解決類似問題時不會出現這種受規模影響的現象。在小規模網格上,o3的表現優于人類;但在較大規模網格上,人類的表現則優于o3。這說明大模型與人類在解決此類問題時的思維方式存在差異。

        4. 維度差異與信息處理方式

        研究人員認為,大模型處理信息的方式(一維token流)與人類處理二維空間信息的方式存在根本差異。大規模網格需要模型處理更長的上下文信息,進行跨行跨列的復雜推理,這導致了模型性能的下降。通過旋轉矩陣,讓模型分別基于行和列進行推理,可以顯著提高模型的準確率,這進一步佐證了維度差異的影響。

        5. 視覺信息與信息處理的局限性

        網友指出,即使模型具備“視覺”能力,其對視覺信息的處理方式也與人類不同。人類視覺能夠并行處理信息,而模型則采用逐個token的串行處理方式,這可能是導致性能下降的另一個重要因素。

        6. ARC-AGI的局限性與未來展望

        研究結論認為,ARC-AGI挑戰并不完全能夠反映大模型的真實推理能力,一些模型可能被低估,而o3則可能被高估。ARC-AGI-2的即將推出,也將對現有模型提出更大的挑戰,預計o3的得分將大幅下降。

        總而言之,這項研究揭示了大模型在處理空間推理任務時的局限性,特別是網格規模對模型性能的顯著影響,為進一步改進大模型的推理能力提供了重要的研究方向。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲无码精品浪潮| 好爽…又高潮了免费毛片| 免费播放特黄特色毛片| 亚洲人成网站在线在线观看 | 亚洲av无码偷拍在线观看| 97碰公开在线观看免费视频| 亚洲最新视频在线观看| 99热在线免费观看| 亚洲自偷自偷精品| 亚洲国产精品免费视频| 亚洲电影免费在线观看| 99精品视频在线观看免费专区| 亚洲国产精品久久久久网站| 久久99免费视频| 久久丫精品国产亚洲av不卡| 日本人成在线视频免费播放| 亚洲第一页在线视频| 免费福利在线播放| 亚洲精品宾馆在线精品酒店 | 国产精品国产自线拍免费软件| 亚洲av色香蕉一区二区三区| 国产一区二区三区在线免费观看| 美女黄频视频大全免费的| 久久精品夜色噜噜亚洲A∨| 成在线人免费无码高潮喷水| 亚洲va在线va天堂va不卡下载| 黄+色+性+人免费| 亚洲色欲色欱wwW在线| 四虎永久成人免费| 中文在线观看免费网站| 亚洲电影一区二区| 成人免费看吃奶视频网站| 日韩一区二区三区免费播放| 伊人久久大香线蕉亚洲五月天| 亚在线观看免费视频入口| youjizz亚洲| 亚洲午夜爱爱香蕉片| 国产免费AV片在线观看| 亚洲国产日韩视频观看| 亚洲男人第一无码aⅴ网站| 外国成人网在线观看免费视频|