Karpathy:用表情包解釋一下,為什么AI數(shù)不清Strawberry幾個 r?
AIGC動態(tài)歡迎閱讀
原標題:Karpathy:用表情包解釋一下,為什么AI數(shù)不清Strawberry幾個 r?
關鍵字:模型,問題,數(shù)據(jù),知識,能力
文章來源:Founder Park
內容字數(shù):0字
內容摘要:
還記得這些天大模型被揪出來的低級錯誤嗎?
不知道 13.11 和 13.8哪個大,數(shù)不清 Strawberry 單詞里面有多少個 r…… 每每被發(fā)現(xiàn)一個弱點,大模型都只能接受人們的無情嘲笑。
嘲笑之后,大家也冷靜了下來,開始思考:低級錯誤背后的本質是什么?大家普遍認為,是 Token 化(Tokenization)的鍋。
AI大神Karpathy按照程序被設計的表示方法,用表情包展現(xiàn)了大模型眼中的文字世界,「How many letters ‘r’ in the word’strawberry’?」在 LLM 看來是:01Karpathy:用表情包模擬LLM的文字世界在國內,Tokenization 經(jīng)常被翻譯成「分詞」。這個翻譯有一定的誤導性,因為 Tokenization 里的 token 指的未必是詞,也可以是標點符號、數(shù)字或者某個單詞的一部分。比如,在 OpenAI 提供的一個工具中,我們可以看到,Strawberry 這個單詞就被分為了 Str-aw-berry 三個 token。在這種情況下,你讓 AI 大模型數(shù)單詞里有幾個 r,屬實是為難它。
除了草莓 (Strawber
原文鏈接:Karpathy:用表情包解釋一下,為什么AI數(shù)不清Strawberry幾個 r?
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...