蘋果發文質疑：大語言模型根本無法進行邏輯推理

AIGC動態歡迎閱讀

原標題：蘋果發文質疑：大語言模型根本無法進行邏輯推理
關鍵字：模型,問題,能力,語言,性能
文章來源：人工智能學家
內容字數：0字

內容摘要：

大語言模型（LLM）是真的會數學推理？還是只是在“套路”解題？
近年來，大語言模型在各種任務中的表現引起廣泛關注。一個核心問題逐漸浮現：這些模型是否真正具備邏輯推理能力，還是僅僅通過復雜的模式匹配來應對看似推理的問題？尤其是在數學推理任務中，模型的表現究竟是在模擬人類思維，還是僅僅通過數據模式匹配得出答案？
日前，來自蘋果公司的 Iman Mirzadeh 及其研究團隊提出了一個名為 GSM-Symbolic 的新基準，針對多個開源模型（如 Llama、Phi、Gemma、Mistral）和閉源模型（如 GPT-4o、o1 系列）進行了大規模評估。
結果顯示，當問題中的數值或名字變化時，模型的會表現出顯著的波動。此外，隨著問題難度的提升（如增加更多子句），模型的表現迅速下降，這表明這些模型在推理復雜問題時非常脆弱。
研究團隊認為，這種表現下降并非偶然，而是因為當前的大語言模型缺乏真正的邏輯推理能力，更多是在基于訓練數據中的模式進行匹配，而非像人類一樣進行符號和邏輯推導。
即使是簡單的變化，如調整問題中的數值，也能導致模型準確率下降 10%。而當問題增加一個額外但無關的子句時，性能下降幅

原文鏈接：蘋果發文質疑：大語言模型根本無法進行邏輯推理