AIGC動態歡迎閱讀
原標題:大模型智障檢測+1:Strawberry有幾個r紛紛數不清,最新最強Llama3.1也傻了
關鍵字:騰訊,報告,問題,方法,模型
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 一水 發自 凹非寺量子位 | 公眾號 QbitAI繼分不清9.11和9.9哪個大以后,大模型又“集體失智”了!
數不對單詞“Strawberry”中有幾個“r”,再次引起一片討論。
GPT-4o不僅錯了還很自信。
剛出爐的Llama-3.1 405B,倒是能在驗證中發現問題并改正。
比較離譜的是Claude 3.5 Sonnet,還越改越錯了。
說起來這并不是最新發現的問題,只是最近新模型接布,非常熱鬧。
一個個號稱自己數學漲多少分,大家就再次拿出這個問題來試驗,結果很是失望。
在眾多相關討論的帖子中,還翻出一條馬斯克對此現象的評論:
好吧,也許AGI比我想象的還要更遠。
路遇失智AI,拼盡全力終于教會有人發現,即使使用Few-Shot CoT,也就是“一步一步地想”附加一個人類操作示例,ChatGPT依然學不會:
倒是把r出現的位置都標成1,其他標成0,問題的難度下降了,但是數“1”依舊不擅長。
為了教會大模型數r,全球網友腦洞大開,開發出各種奇奇怪怪的提示詞技巧。
比如讓ChatGPT使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。
ChatGPT想出的方法倒是
原文鏈接:大模型智障檢測+1:Strawberry有幾個r紛紛數不清,最新最強Llama3.1也傻了
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...