AIGC動態歡迎閱讀
原標題:LLM實踐系列-詳談Tokenizer訓練細節
關鍵字:詞表,知乎,模型,字符,語料
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
今天給大家帶來知乎@真中的一篇文章,《LLM實踐–Tokenizer訓練》。
知乎:https://zhuanlan.zhihu.com/p/739078635
經過了數據收集、篩選、去重,馬上就可以開始訓練實驗了。但是在實驗之前,我們還需要先獲取一個語言模型的基石:分詞器(Tokenizer)。Tokenizer 的作用是對一條文本數據進行切分、詞表映射,得到這條文本的token序列。
01用開源 Tokenizer 還是自己訓練Tokenizer可以自己訓練,也可以從目前開源的模型中扒一個來用,用開源Tokenizer有幾個點需要著重關注:
壓縮率:壓縮率決定了文本向量化后的長度,壓縮率越高,向量后數據越短,訓練和推理效率越高,但是對訓練數據的數量要求也越大,主流的tokenizer對漢字的壓縮率都在1.5-1.6之間,也就是1.5-1.6個漢字劃分為一個token。
token覆蓋率:token覆蓋率不用糾結細節,只需要關注是否有你的目標語種的token,比如llama的tokenizer中文就很少,相應地中文上壓縮率就比較低,token向字節流的退化率比較高,也一定程度的
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...