兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
關鍵字：模型,能力,問題,答案,測試
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊好困
【新智元導讀】在基準測試上頻頻屠榜的大模型們，竟然被一道簡單的邏輯推理題打得全軍覆沒？最近，研究機構LAION的幾位作者共同發表了一篇文章，以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題，揭示了LLM基準測試的盲區。一道簡單的邏輯問題，竟讓幾乎所有的LLM全軍覆沒？
對于人類來說，這個名為「愛麗絲夢游仙境」（AIW）的測試并不算很難——
「愛麗絲有N個兄弟，她還有M個姐妹。愛麗絲的兄弟有多少個姐妹？」
只需稍加思考，答案顯而易見：M+1。（愛麗絲擁有的姐妹數量，再加上愛麗絲自己）
但是，當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時，得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。
而且問題不僅僅是基本的不準確性：當要求展示其工作過程時，AI會詳細說明一些荒謬且錯誤的「思考」過程，這些過程毫無意義——更奇怪的是，當被告知其工作不準確時，模型反復變得憤怒并堅持其錯誤答案。
正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型，也幾乎不具有小學生的推理能力

原文鏈接：兩句話，讓LLM邏輯推理瞬間崩潰！最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷