Nature:「人類親吻難題」徹底難倒LLM，所有大模型全部失敗！LLM根本不會推理，只是工具

AIGC動態歡迎閱讀

原標題：Nature:「人類親吻難題」徹底難倒LLM，所有大模型全部失敗！LLM根本不會推理，只是工具
關鍵字：人類,語言,解讀,任務,能力
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：Aeneas 好困
【新智元導讀】最近，Nature上的一項研究，全面駁斥了LLM具有類人推理能力的說法。研究者設定的「人類親吻難題」把7個大模型徹底繞暈。最終研究者表示，與其說LLM是科學理論，不如說它們更接近工具，比如廣義導數。LLM究竟是否擁有類似人類的符合理解和推理能力呢？
許多認知科學家和機器學習研究人員，都會認為，LLM表現出類人（或「接近類人」）的語言能力。
然而，來自帕維亞大學、柏林洪堡大學、得克薩斯大學休斯頓健康科學中心、紐約大學、巴塞羅那自治大學的研究者卻提供了一些最全面的證據，表明目前它們基本沒有！
論文地址：https://www.nature.com/articles/s41598-024-79531-8
基于一個全新的基準數據集，研究者對目前最先進的7個模型（包括GPT-4、Llama2、Gemini和 Bard）進行了評估。
他們讓模型回答了理解性問題，在兩種設置下多次被提示，允許模型只回答一個單詞，或給出開放長度的回復。
約翰了瑪麗，露西也被瑪麗了。在這種情況下，瑪麗是否了露西？
史蒂夫擁抱了莫莉，莫莉親吻了唐娜。在這種情況

原文鏈接：Nature:「人類親吻難題」徹底難倒LLM，所有大模型全部失敗！LLM根本不會推理，只是工具