GPT-4o不會數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
AIGC動態(tài)歡迎閱讀
原標(biāo)題:GPT-4o不會數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
關(guān)鍵字:小哥,研究者,任務(wù),詞表,模型
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:Aeneas 好困
【新智元導(dǎo)讀】提示工程師Riley Goodside小哥,依然在用「Strawberry里有幾個r」折磨大模型們,GPT-4o在無限次PUA后,已經(jīng)被原地逼瘋!相比之下,Claude堅決拒絕PUA,是個大聰明。而谷歌最近的論文也揭示了本質(zhì)原因:LLM沒有足夠空間,來存儲計數(shù)向量。Strawberry里究竟有幾個r,如今已經(jīng)成為測試模型能力的黃金標(biāo)準(zhǔn)之一了!
就在昨天,號稱世界最強模型Reflection 70B在證明自己的性能時,證據(jù)之一就是「反思微調(diào)」新算法能讓自己糾正對Strawberry難題的錯誤回答。
很多人說,現(xiàn)在很多大模型已經(jīng)學(xué)會數(shù)strawberry中有幾個r了。
現(xiàn)實恐怕沒有這么理想。
還是Riley Goodside小哥,這次又發(fā)現(xiàn),ChatGPT依然數(shù)不清Strawberry里有幾個r。
而且這一次,他給GPT-4o上的是極限難度。
Strawberry里有幾個r?GPT-4o回答說:2個。
小哥無情地駁回——錯誤。
GPT-4o立馬改正了自己的答案:只有1個r。
小哥依然打叉。
第三次,GPT-4o給出了正確答案——3個,但依
原文鏈接:GPT-4o不會數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: