LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」
關(guān)鍵字:模型,人類,問題,任務(wù),論文
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】前段時間沖上熱搜的問題「9.11比9.9大嗎?」,讓幾乎所有LLM集體翻車。看似熱度已過,但AI界大佬Andrej Karpathy卻從中看出了當(dāng)前大模型技術(shù)的本質(zhì)缺陷,以及未來的潛在改進(jìn)方向。一邊是OpenAI、Meta、Mistral、DeepMind等巨頭們爭先恐后地發(fā)模型,幾乎每天都能聽到重磅消息,給人一種「技術(shù)進(jìn)步日新月異,AGI僅在眼前」的錯覺。
另一邊又是「9.9<9.11」難題繼續(xù)發(fā)揮余熱,從到微博,引發(fā)了全球網(wǎng)友的關(guān)注。
雖然LLM失智也不是第一天了,但幾乎全部大模型都在如此簡單的問題上翻車,的確罕見。
這種量級的討論熱度,也自然引來了大佬Karpathy的圍觀。他甚至表示,這已經(jīng)成為自己最喜歡的LLM測試了。
GPT-4o的失手概率是1/3,但Claude幾乎3/3全敗
下面是Karpathy本人的實測結(jié)果。即使提示了Claude「按實數(shù)算,別按版本號算」,也根本不起作用。
突然和輔導(dǎo)孩子寫作業(yè)的家長狠狠共情了
但是Karpathy這種級別的大佬,怎么會滿足于找樂子?
作為AI技術(shù)界KOL,他今天發(fā)了一篇長推,把近半年來出現(xiàn)
原文鏈接:LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: