Tokenization如何影響LLM中算術?不妨看看HuggingFace的解釋
原標題:從2019年到現在,是時候重新審視Tokenization了
文章來源:機器之心
內容字數:6500字
HuggingFace:Tokenization如何影響大模型的數學能力
本文總結了HuggingFace一篇關于Tokenization如何影響大模型數學能力,特別是算術能力的博客文章。文章指出,2019年問世的GPT-2使用BPE算法進行分詞,這種方法至今仍很常見,但并非最優。大模型在處理諸如“9.9和9.11哪個大”這樣的簡單算術題時經常出錯,這與Tokenization策略密切相關。
1. 不同模型的Tokenization策略
文章比較了不同模型的Tokenization方法及其對數字處理的影響:GPT-2使用BPE算法,導致數字編碼方式不一致;Llama系列對數字進行了顯著調整,Llama和Llama 2將所有數字拆分為單個數字(0-9);Deepseek-V2也采用類似的單位數Tokenizer;Llama 3則將數字Token化為三位數。
2. 從右到左(R2L) Tokenization 的優勢
文章介紹了一種新的范式:從右到左(R2L) Tokenization。與傳統的從左到右(L2R)方法不同,R2L方法從文本末尾開始分詞,這被證明對某些算術運算有益,因為它可以防止操作數錯位。一些閉源模型,例如傳聞中的Claude,也使用了這種方法。文章以3789 + 8791為例,說明了L2R和R2L方法在處理數字時的差異,R2L方法可以更好地對齊操作數,避免錯位帶來的誤差。
3. 實驗結果與比較
研究人員進行了實驗,比較了GPT-2的BPE tokenizer、Llama 3的三位數tokenizer和Deepseek的單位數tokenizer的性能。結果顯示,在簡單問題上差異不明顯,但隨著問題復雜性增加,單位數tokenizer表現最好,對輸入數據長度變化更魯棒,能夠更好地捕捉復雜模式。此外,浮點數和整數之間的性能差距在所有tokenizer中相似。
實驗還發現,三位數R2L tokenizer優于標準三位數L2R tokenizer。使用R2L token數據訓練的模型取得了顯著改進(乘法除外)。純BPE tokenizer在使用R2L token化時性能不一致,這可能是因為其數字分組方式缺乏結構。
在基于單詞的問題上,單位數和三位數tokenizer通常優于基于BPE的tokenizer。
4. Llama 3 R2L推理測試
文章測試了Llama 3 8B Instruct模型在推理期間使用R2L tokenization時的表現,無需重新訓練。結果顯示,對于加法運算,在沒有進位的情況下,數字個數為3的倍數時,L2R和R2L的結果相同;對于有進位的加法,R2L方法表現更好。減法、乘法和除法則沒有顯著差異。
5. 結論與建議
文章總結指出,Tokenization對語言模型的算術性能有顯著影響。如果必須使用最多三位數的tokenizer,建議使用R2L方向;如果已有模型使用L2R,可以通過使用R2L來提升數學性能。最重要的是,對于算術運算,單位數tokenization性能明顯優于其他方法。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
相關文章
