問題關鍵在于信息處理維度
原標題:o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型
文章來源:量子位
內容字數:3327字
大模型在ARC-AGI推理任務中的局限性
本文總結了關于大語言模型(LLM)在ARC-AGI超難推理任務上表現的研究發現。研究表明,模型性能并非完全取決于任務難度,而是與任務規模密切相關。特別是網格規模對模型表現的影響尤為顯著。
1. 網格規模與模型性能的負相關關系
研究人員發現,在ARC-AGI任務中,包含色塊網格的規模越大,大模型(包括o3、o1、o1 mini以及Claude)的表現越差。 o3雖然在較小規模的網格上表現出色,但在網格數量達到1024個左右時,其性能下降趨勢明顯加劇。
2. 實驗驗證與數據分析
通過將單個網格細分成更小的網格進行實驗,研究人員進一步驗證了網格規模的影響。即使是原本能夠正確解答的題目,在增加網格數量后,模型的準確率也顯著下降。對ARC數據集的統計分析也表明,規模為1024像素的題目數量最多,這與o3性能下降的拐點相吻合。
3. 模型與人類的差異化表現
研究指出,人類在解決類似問題時不會出現這種受規模影響的現象。在小規模網格上,o3的表現優于人類;但在較大規模網格上,人類的表現則優于o3。這說明大模型與人類在解決此類問題時的思維方式存在差異。
4. 維度差異與信息處理方式
研究人員認為,大模型處理信息的方式(一維token流)與人類處理二維空間信息的方式存在根本差異。大規模網格需要模型處理更長的上下文信息,進行跨行跨列的復雜推理,這導致了模型性能的下降。通過旋轉矩陣,讓模型分別基于行和列進行推理,可以顯著提高模型的準確率,這進一步佐證了維度差異的影響。
5. 視覺信息與信息處理的局限性
網友指出,即使模型具備“視覺”能力,其對視覺信息的處理方式也與人類不同。人類視覺能夠并行處理信息,而模型則采用逐個token的串行處理方式,這可能是導致性能下降的另一個重要因素。
6. ARC-AGI的局限性與未來展望
研究結論認為,ARC-AGI挑戰并不完全能夠反映大模型的真實推理能力,一些模型可能被低估,而o3則可能被高估。ARC-AGI-2的即將推出,也將對現有模型提出更大的挑戰,預計o3的得分將大幅下降。
總而言之,這項研究揭示了大模型在處理空間推理任務時的局限性,特別是網格規模對模型性能的顯著影響,為進一步改進大模型的推理能力提供了重要的研究方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破