為什么AI數(shù)不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下
AIGC動態(tài)歡迎閱讀
原標題:為什么AI數(shù)不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下
關鍵字:模型,數(shù)據(jù),問題,知識,能力
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部讓模型知道自己擅長什么、不擅長什么是一個很重要的問題。還記得這些天大模型被揪出來的低級錯誤嗎?
不知道 9.11 和 9.9 哪個大,數(shù)不清 Strawberry 單詞里面有多少個 r…… 每每被發(fā)現(xiàn)一個弱點,大模型都只能接受人們的無情嘲笑。嘲笑之后,大家也冷靜了下來,開始思考:低級錯誤背后的本質(zhì)是什么?
大家普遍認為,是 Token 化(Tokenization)的鍋。
在國內(nèi),Tokenization 經(jīng)常被翻譯成「分詞」。這個翻譯有一定的誤導性,因為 Tokenization 里的 token 指的未必是詞,也可以是標點符號、數(shù)字或者某個單詞的一部分。比如,在 OpenAI 提供的一個工具中,我們可以看到,Strawberry 這個單詞就被分為了 Str-aw-berry 三個 token。在這種情況下,你讓 AI 大模型數(shù)單詞里有幾個 r,屬實是為難它。除了草莓 (Strawberry) 之外,還有一個很好的例子就是「Schoolbooks」這個詞,AI 模型會把它分為 school 和 books 兩個 token。這個問題也吸引了剛剛投身 AI
原文鏈接:為什么AI數(shù)不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...