Nature:「人類親吻難題」徹底難倒LLM,所有大模型全部失敗!LLM根本不會推理,只是工具
AIGC動態(tài)歡迎閱讀
原標題:Nature:「人類親吻難題」徹底難倒LLM,所有大模型全部失敗!LLM根本不會推理,只是工具
關鍵字:人類,語言,解讀,任務,能力
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:Aeneas 好困
【新智元導讀】最近,Nature上的一項研究,全面駁斥了LLM具有類人推理能力的說法。研究者設定的「人類親吻難題」把7個大模型徹底繞暈。最終研究者表示,與其說LLM是科學理論,不如說它們更接近工具,比如廣義導數(shù)。LLM究竟是否擁有類似人類的符合理解和推理能力呢?
許多認知科學家和機器學習研究人員,都會認為,LLM表現(xiàn)出類人(或「接近類人」)的語言能力。
然而,來自帕維亞大學、柏林洪堡大學、得克薩斯大學休斯頓健康科學中心、紐約大學、巴塞羅那自治大學的研究者卻提供了一些最全面的證據(jù),表明目前它們基本沒有!
論文地址:https://www.nature.com/articles/s41598-024-79531-8
基于一個全新的基準數(shù)據(jù)集,研究者對目前最先進的7個模型(包括GPT-4、Llama2、Gemini和 Bard)進行了評估。
他們讓模型回答了理解性問題,在兩種設置下多次被提示,允許模型只回答一個單詞,或給出開放長度的回復。
約翰了瑪麗,露西也被瑪麗了。在這種情況下,瑪麗是否了露西?
史蒂夫擁抱了莫莉,莫莉親吻了唐娜。在這種情況
原文鏈接:Nature:「人類親吻難題」徹底難倒LLM,所有大模型全部失敗!LLM根本不會推理,只是工具
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...