大神Karpathy強推，分詞領域必讀：自動釣魚讓大模型“發瘋”的token，來自Transformer作者創業公司

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大神Karpathy強推，分詞領域必讀：自動釣魚讓大模型“發瘋”的token，來自Transformer作者創業公司
關鍵字：模型,詞匯表,數據,分詞,研究人員
文章來源：量子位
內容字數：3263字

內容摘要：

魚羊發自凹非寺量子位 | 公眾號 QbitAI關于大模型分詞（tokenization），大神Karpathy剛剛推薦了一篇必讀新論文。
主題是：自動檢測大模型中那些會導致“故障”的token。
簡單來說，由于大模型tokenizer的創建和模型訓練是分開的，可能導致某些token在訓練中很少、甚至完全沒出現過。這些“訓練不足”（under-trained）的token會導致模型產生異常輸出。
最經典的例子，就是SolidGoldMagikarp——
這個單詞一度讓ChatGPT“胡言亂語”。只要prompt里包含這個詞，ChatGPT就開始文不對題，生成一些混亂的輸出：
現在，來自Cohere的研究人員針對這個問題，提出檢測“故障”token的有效方法，他們還發現：在多個主流開源大語言模型上，包括Llama系列、Mistral系列在內，訓練不足的token都在不同程度上普遍存在。
p.s. Cohere是Transformer最年輕作者Aidan Gomez創辦的公司，此前推出了Command R系列開源大模型。去年6月，該公司估值達到了22億美元。
自動檢測LLM中訓練不足的t

原文鏈接：大神Karpathy強推，分詞領域必讀：自動釣魚讓大模型“發瘋”的token，來自Transformer作者創業公司