
AIGC動態歡迎閱讀
原標題:為什么AI數不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下
關鍵字:模型,數據,問題,知識,能力
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部讓模型知道自己擅長什么、不擅長什么是一個很重要的問題。還記得這些天大模型被揪出來的低級錯誤嗎?
不知道 9.11 和 9.9 哪個大,數不清 Strawberry 單詞里面有多少個 r…… 每每被發現一個弱點,大模型都只能接受人們的無情嘲笑。嘲笑之后,大家也冷靜了下來,開始思考:低級錯誤背后的本質是什么?
大家普遍認為,是 Token 化(Tokenization)的鍋。
在國內,Tokenization 經常被翻譯成「分詞」。這個翻譯有一定的誤導性,因為 Tokenization 里的 token 指的未必是詞,也可以是標點符號、數字或者某個單詞的一部分。比如,在 OpenAI 提供的一個工具中,我們可以看到,Strawberry 這個單詞就被分為了 Str-aw-berry 三個 token。在這種情況下,你讓 AI 大模型數單詞里有幾個 r,屬實是為難它。除了草莓 (Strawberry) 之外,還有一個很好的例子就是「Schoolbooks」這個詞,AI 模型會把它分為 school 和 books 兩個 token。這個問題也吸引了剛剛投身 AI
原文鏈接:為什么AI數不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號