「13.11＞13.8」沖上熱搜，一道題讓人類AI集體降智？所有LLM致命缺點曝光

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：「13.11＞13.8」沖上熱搜，一道題讓人類AI集體降智？所有LLM致命缺點曝光
關鍵字：模型,人類,問題,常識,數字
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：Aeneas 好困
【新智元導讀】13.8和13.11哪個大？這個問題不光難倒了部分人類，還讓一票大模型折戟。AI如今都能奧數題了，但簡單的常識問題對它們依然難如登天。其實，無論是比大小，還是卷心菜難題，都揭示了LLM在token預測上的一個重大缺陷。13.8和13.11哪個大？
這個問題，居然難倒了一票人類。
前兩天，某知名綜藝再次喜提熱搜。
只不過，這次是因為有一堆網友提出質疑，認為13.11%應該比13.8%大。
是只有人類這么蠢嗎？
AI2的研究員林禹臣發現這個現象后，用大模型試了一把，結果出人意料——
AI居然也不行？
GPT-4o斬釘截鐵地表示：13.11比13.8大。理由如下：
雖然13.8看起來更大，因為它小數點后的數字更少，但13.11實際上更大。這是因為13.8相當于13.80，而13.80小于13.11。
對此，林禹臣po文表示，AI模型在處理復雜問題方面變得越來越強大（比如越來越會做數學奧賽題），但一些常識性問題對于它們來說仍然非常困難。
正如Yejin Choi此前所提出的，AI聰明得令人難以置信，但同時也會蠢得令人震驚。
AI之所以在

原文鏈接：「13.11＞13.8」沖上熱搜，一道題讓人類AI集體降智？所有LLM致命缺點曝光