大模型智障檢測+1：Strawberry有幾個r紛紛數不清，最新最強Llama3.1也傻了

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大模型智障檢測+1：Strawberry有幾個r紛紛數不清，最新最強Llama3.1也傻了
關鍵字：騰訊,報告,問題,方法,模型
文章來源：量子位
內容字數：0字

內容摘要：

夢晨一水發自凹非寺量子位 | 公眾號 QbitAI繼分不清9.11和9.9哪個大以后，大模型又“集體失智”了！
數不對單詞“Strawberry”中有幾個“r”，再次引起一片討論。
GPT-4o不僅錯了還很自信。
剛出爐的Llama-3.1 405B，倒是能在驗證中發現問題并改正。
比較離譜的是Claude 3.5 Sonnet，還越改越錯了。
說起來這并不是最新發現的問題，只是最近新模型接布，非常熱鬧。
一個個號稱自己數學漲多少分，大家就再次拿出這個問題來試驗，結果很是失望。
在眾多相關討論的帖子中，還翻出一條馬斯克對此現象的評論：
好吧，也許AGI比我想象的還要更遠。
路遇失智AI，拼盡全力終于教會有人發現，即使使用Few-Shot CoT，也就是“一步一步地想”附加一個人類操作示例，ChatGPT依然學不會：
倒是把r出現的位置都標成1，其他標成0，問題的難度下降了，但是數“1”依舊不擅長。
為了教會大模型數r，全球網友腦洞大開，開發出各種奇奇怪怪的提示詞技巧。
比如讓ChatGPT使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。
ChatGPT想出的方法倒是

原文鏈接：大模型智障檢測+1：Strawberry有幾個r紛紛數不清，最新最強Llama3.1也傻了