AIGC動態歡迎閱讀
原標題:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
關鍵字:模型,能力,問題,答案,測試
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊 好困
【新智元導讀】在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構LAION的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了LLM基準測試的盲區。一道簡單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?
對于人類來說,這個名為「愛麗絲夢游仙境」(AIW)的測試并不算很難——
「愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」
只需稍加思考,答案顯而易見:M+1。(愛麗絲擁有的姐妹數量,再加上愛麗絲自己)
但是,當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時,得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。
而且問題不僅僅是基本的不準確性:當要求展示其工作過程時,AI會詳細說明一些荒謬且錯誤的「思考」過程,這些過程毫無意義——更奇怪的是,當被告知其工作不準確時,模型反復變得憤怒并堅持其錯誤答案。
正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型,也幾乎不具有小學生的推理能力
原文鏈接:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...