大神Karpathy強(qiáng)推,分詞領(lǐng)域必讀:自動(dòng)釣魚讓大模型“發(fā)瘋”的token,來自Transformer作者創(chuàng)業(yè)公司

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大神Karpathy強(qiáng)推,分詞領(lǐng)域必讀:自動(dòng)釣魚讓大模型“發(fā)瘋”的token,來自Transformer作者創(chuàng)業(yè)公司
關(guān)鍵字:模型,詞匯表,數(shù)據(jù),分詞,研究人員
文章來源:量子位
內(nèi)容字?jǐn)?shù):3263字
內(nèi)容摘要:
魚羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI關(guān)于大模型分詞(tokenization),大神Karpathy剛剛推薦了一篇必讀新論文。
主題是:自動(dòng)檢測(cè)大模型中那些會(huì)導(dǎo)致“故障”的token。
簡單來說,由于大模型tokenizer的創(chuàng)建和模型訓(xùn)練是分開的,可能導(dǎo)致某些token在訓(xùn)練中很少、甚至完全沒出現(xiàn)過。這些“訓(xùn)練不足”(under-trained)的token會(huì)導(dǎo)致模型產(chǎn)生異常輸出。
最經(jīng)典的例子,就是SolidGoldMagikarp——
這個(gè)單詞一度讓ChatGPT“胡言亂語”。只要prompt里包含這個(gè)詞,ChatGPT就開始文不對(duì)題,生成一些混亂的輸出:
現(xiàn)在,來自Cohere的研究人員針對(duì)這個(gè)問題,提出檢測(cè)“故障”token的有效方法,他們還發(fā)現(xiàn):在多個(gè)主流開源大語言模型上,包括Llama系列、Mistral系列在內(nèi),訓(xùn)練不足的token都在不同程度上普遍存在。
p.s. Cohere是Transformer最年輕作者Aidan Gomez創(chuàng)辦的公司,此前推出了Command R系列開源大模型。去年6月,該公司估值達(dá)到了22億美元。
自動(dòng)檢測(cè)LLM中訓(xùn)練不足的t
原文鏈接:大神Karpathy強(qiáng)推,分詞領(lǐng)域必讀:自動(dòng)釣魚讓大模型“發(fā)瘋”的token,來自Transformer作者創(chuàng)業(yè)公司
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)