o3挑戰ARC-AGI，遇見大網格就懵圈？英國工程師：ARC-AGI不適合大模型

問題關鍵在于信息處理維度

原標題：o3挑戰ARC-AGI，遇見大網格就懵圈？英國工程師：ARC-AGI不適合大模型
文章來源：量子位
內容字數：3327字

本文總結了關于大語言模型（LLM）在ARC-AGI超難推理任務上表現的研究發現。研究表明，模型性能并非完全取決于任務難度，而是與任務規模密切相關。特別是網格規模對模型表現的影響尤為顯著。

研究人員發現，在ARC-AGI任務中，包含色塊網格的規模越大，大模型（包括o3、o1、o1 mini以及Claude）的表現越差。 o3雖然在較小規模的網格上表現出色，但在網格數量達到1024個左右時，其性能下降趨勢明顯加劇。

通過將單個網格細分成更小的網格進行實驗，研究人員進一步驗證了網格規模的影響。即使是原本能夠正確解答的題目，在增加網格數量后，模型的準確率也顯著下降。對ARC數據集的統計分析也表明，規模為1024像素的題目數量最多，這與o3性能下降的拐點相吻合。

研究指出，人類在解決類似問題時不會出現這種受規模影響的現象。在小規模網格上，o3的表現優于人類；但在較大規模網格上，人類的表現則優于o3。這說明大模型與人類在解決此類問題時的思維方式存在差異。

研究人員認為，大模型處理信息的方式（一維token流）與人類處理二維空間信息的方式存在根本差異。大規模網格需要模型處理更長的上下文信息，進行跨行跨列的復雜推理，這導致了模型性能的下降。通過旋轉矩陣，讓模型分別基于行和列進行推理，可以顯著提高模型的準確率，這進一步佐證了維度差異的影響。

網友指出，即使模型具備“視覺”能力，其對視覺信息的處理方式也與人類不同。人類視覺能夠并行處理信息，而模型則采用逐個token的串行處理方式，這可能是導致性能下降的另一個重要因素。

研究結論認為，ARC-AGI挑戰并不完全能夠反映大模型的真實推理能力，一些模型可能被低估，而o3則可能被高估。ARC-AGI-2的即將推出，也將對現有模型提出更大的挑戰，預計o3的得分將大幅下降。

總而言之，這項研究揭示了大模型在處理空間推理任務時的局限性，特別是網格規模對模型性能的顯著影響，為進一步改進大模型的推理能力提供了重要的研究方向。

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...