從2019年到現在，是時候重新審視Tokenization了

Tokenization如何影響LLM中算術？不妨看看HuggingFace的解釋

原標題：從2019年到現在，是時候重新審視Tokenization了
文章來源：機器之心
內容字數：6500字

HuggingFace：Tokenization如何影響大模型的數學能力

本文總結了HuggingFace一篇關于Tokenization如何影響大模型數學能力，特別是算術能力的博客文章。文章指出，2019年問世的GPT-2使用BPE算法進行分詞，這種方法至今仍很常見，但并非最優。大模型在處理諸如“9.9和9.11哪個大”這樣的簡單算術題時經常出錯，這與Tokenization策略密切相關。

1. 不同模型的Tokenization策略

文章比較了不同模型的Tokenization方法及其對數字處理的影響：GPT-2使用BPE算法，導致數字編碼方式不一致；Llama系列對數字進行了顯著調整，Llama和Llama 2將所有數字拆分為單個數字（0-9）；Deepseek-V2也采用類似的單位數Tokenizer；Llama 3則將數字Token化為三位數。

2. 從右到左(R2L) Tokenization 的優勢

文章介紹了一種新的范式：從右到左(R2L) Tokenization。與傳統的從左到右(L2R)方法不同，R2L方法從文本末尾開始分詞，這被證明對某些算術運算有益，因為它可以防止操作數錯位。一些閉源模型，例如傳聞中的Claude，也使用了這種方法。文章以3789 + 8791為例，說明了L2R和R2L方法在處理數字時的差異，R2L方法可以更好地對齊操作數，避免錯位帶來的誤差。

3. 實驗結果與比較

研究人員進行了實驗，比較了GPT-2的BPE tokenizer、Llama 3的三位數tokenizer和Deepseek的單位數tokenizer的性能。結果顯示，在簡單問題上差異不明顯，但隨著問題復雜性增加，單位數tokenizer表現最好，對輸入數據長度變化更魯棒，能夠更好地捕捉復雜模式。此外，浮點數和整數之間的性能差距在所有tokenizer中相似。

實驗還發現，三位數R2L tokenizer優于標準三位數L2R tokenizer。使用R2L token數據訓練的模型取得了顯著改進（乘法除外）。純BPE tokenizer在使用R2L token化時性能不一致，這可能是因為其數字分組方式缺乏結構。

在基于單詞的問題上，單位數和三位數tokenizer通常優于基于BPE的tokenizer。

4. Llama 3 R2L推理測試

文章測試了Llama 3 8B Instruct模型在推理期間使用R2L tokenization時的表現，無需重新訓練。結果顯示，對于加法運算，在沒有進位的情況下，數字個數為3的倍數時，L2R和R2L的結果相同；對于有進位的加法，R2L方法表現更好。減法、乘法和除法則沒有顯著差異。

5. 結論與建議

文章總結指出，Tokenization對語言模型的算術性能有顯著影響。如果必須使用最多三位數的tokenizer，建議使用R2L方向；如果已有模型使用L2R，可以通過使用R2L來提升數學性能。最重要的是，對于算術運算，單位數tokenization性能明顯優于其他方法。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI Tokenization安全 # AI數據Tokenization # Tokenization應用于AI # Tokenization賦能AI模型訓練 # 去中心化AI Tokenization

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

從2019年到現在，是時候重新審視Tokenization了

Tokenization如何影響LLM中算術？不妨看看HuggingFace的解釋

HuggingFace：Tokenization如何影響大模型的數學能力

1. 不同模型的Tokenization策略

2. 從右到左(R2L) Tokenization 的優勢

3. 實驗結果與比較

4. Llama 3 R2L推理測試

5. 結論與建議

聯系作者

復旦首發“AI禁令”：禁止在論文關鍵環節使用AI工具

全網都在扒的DeepSeek團隊，是清北應屆生撐起一片天

相關文章

暫無評論

ChatGPT

玩虛擬模特？