GPT-4o不會(huì)數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o不會(huì)數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
關(guān)鍵字:小哥,研究者,任務(wù),詞表,模型
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:Aeneas 好困
【新智元導(dǎo)讀】提示工程師Riley Goodside小哥,依然在用「Strawberry里有幾個(gè)r」折磨大模型們,GPT-4o在無限次PUA后,已經(jīng)被原地逼瘋!相比之下,Claude堅(jiān)決拒絕PUA,是個(gè)大聰明。而谷歌最近的論文也揭示了本質(zhì)原因:LLM沒有足夠空間,來存儲(chǔ)計(jì)數(shù)向量。Strawberry里究竟有幾個(gè)r,如今已經(jīng)成為測試模型能力的黃金標(biāo)準(zhǔn)之一了!
就在昨天,號(hào)稱世界最強(qiáng)模型Reflection 70B在證明自己的性能時(shí),證據(jù)之一就是「反思微調(diào)」新算法能讓自己糾正對(duì)Strawberry難題的錯(cuò)誤回答。
很多人說,現(xiàn)在很多大模型已經(jīng)學(xué)會(huì)數(shù)strawberry中有幾個(gè)r了。
現(xiàn)實(shí)恐怕沒有這么理想。
還是Riley Goodside小哥,這次又發(fā)現(xiàn),ChatGPT依然數(shù)不清Strawberry里有幾個(gè)r。
而且這一次,他給GPT-4o上的是極限難度。
Strawberry里有幾個(gè)r?GPT-4o回答說:2個(gè)。
小哥無情地駁回——錯(cuò)誤。
GPT-4o立馬改正了自己的答案:只有1個(gè)r。
小哥依然打叉。
第三次,GPT-4o給出了正確答案——3個(gè),但依
原文鏈接:GPT-4o不會(huì)數(shù)r,被外國小哥原地逼瘋! 谷歌論文揭秘Transformer「數(shù)不到n」
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: