Karpathy：用表情包解釋一下，為什么AI數不清Strawberry幾個 r？

AIGC動態1年前 (2024)發布 Founder Park

AIGC動態歡迎閱讀

原標題：Karpathy：用表情包解釋一下，為什么AI數不清Strawberry幾個 r？
關鍵字：模型,問題,數據,知識,能力
文章來源：Founder Park
內容字數：0字

內容摘要：

還記得這些天大模型被揪出來的低級錯誤嗎？
不知道 13.11 和 13.8哪個大，數不清 Strawberry 單詞里面有多少個 r…… 每每被發現一個弱點，大模型都只能接受人們的無情嘲笑。
嘲笑之后，大家也冷靜了下來，開始思考：低級錯誤背后的本質是什么？大家普遍認為，是 Token 化（Tokenization）的鍋。
AI大神Karpathy按照程序被設計的表示方法，用表情包展現了大模型眼中的文字世界，「How many letters ‘r’ in the word’strawberry’?」在 LLM 看來是：01Karpathy：用表情包模擬LLM的文字世界在國內，Tokenization 經常被翻譯成「分詞」。這個翻譯有一定的誤導性，因為 Tokenization 里的 token 指的未必是詞，也可以是標點符號、數字或者某個單詞的一部分。比如，在 OpenAI 提供的一個工具中，我們可以看到，Strawberry 這個單詞就被分為了 Str-aw-berry 三個 token。在這種情況下，你讓 AI 大模型數單詞里有幾個 r，屬實是為難它。
除了草莓 (Strawber

原文鏈接：Karpathy：用表情包解釋一下，為什么AI數不清Strawberry幾個 r？