<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從2019年到現在,是時候重新審視Tokenization了

        AIGC動態9個月前發布 機器之心
        187 0 0

        Tokenization如何影響LLM中算術?不妨看看HuggingFace的解釋

        從2019年到現在,是時候重新審視Tokenization了

        原標題:從2019年到現在,是時候重新審視Tokenization了
        文章來源:機器之心
        內容字數:6500字

        HuggingFace:Tokenization如何影響大模型的數學能力

        本文總結了HuggingFace一篇關于Tokenization如何影響大模型數學能力,特別是算術能力的博客文章。文章指出,2019年問世的GPT-2使用BPE算法進行分詞,這種方法至今仍很常見,但并非最優。大模型在處理諸如“9.9和9.11哪個大”這樣的簡單算術題時經常出錯,這與Tokenization策略密切相關。

        1. 不同模型的Tokenization策略

        文章比較了不同模型的Tokenization方法及其對數字處理的影響:GPT-2使用BPE算法,導致數字編碼方式不一致;Llama系列對數字進行了顯著調整,Llama和Llama 2將所有數字拆分為單個數字(0-9);Deepseek-V2也采用類似的單位數Tokenizer;Llama 3則將數字Token化為三位數。

        2. 從右到左(R2L) Tokenization 的優勢

        文章介紹了一種新的范式:從右到左(R2L) Tokenization。與傳統的從左到右(L2R)方法不同,R2L方法從文本末尾開始分詞,這被證明對某些算術運算有益,因為它可以防止操作數錯位。一些閉源模型,例如傳聞中的Claude,也使用了這種方法。文章以3789 + 8791為例,說明了L2R和R2L方法在處理數字時的差異,R2L方法可以更好地對齊操作數,避免錯位帶來的誤差。

        3. 實驗結果與比較

        研究人員進行了實驗,比較了GPT-2的BPE tokenizer、Llama 3的三位數tokenizer和Deepseek的單位數tokenizer的性能。結果顯示,在簡單問題上差異不明顯,但隨著問題復雜性增加,單位數tokenizer表現最好,對輸入數據長度變化更魯棒,能夠更好地捕捉復雜模式。此外,浮點數和整數之間的性能差距在所有tokenizer中相似。

        實驗還發現,三位數R2L tokenizer優于標準三位數L2R tokenizer。使用R2L token數據訓練的模型取得了顯著改進(乘法除外)。純BPE tokenizer在使用R2L token化時性能不一致,這可能是因為其數字分組方式缺乏結構。

        在基于單詞的問題上,單位數和三位數tokenizer通常優于基于BPE的tokenizer。

        4. Llama 3 R2L推理測試

        文章測試了Llama 3 8B Instruct模型在推理期間使用R2L tokenization時的表現,無需重新訓練。結果顯示,對于加法運算,在沒有進位的情況下,數字個數為3的倍數時,L2R和R2L的結果相同;對于有進位的加法,R2L方法表現更好。減法、乘法和除法則沒有顯著差異。

        5. 結論與建議

        文章總結指出,Tokenization對語言模型的算術性能有顯著影響。如果必須使用最多三位數的tokenizer,建議使用R2L方向;如果已有模型使用L2R,可以通過使用R2L來提升數學性能。最重要的是,對于算術運算,單位數tokenization性能明顯優于其他方法。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 最近的中文字幕大全免费8| 男女啪啪免费体验区| 小草在线看片免费人成视久网| 亚洲av无码国产精品色在线看不卡 | 啊v在线免费观看| 亚洲风情亚Aⅴ在线发布| 大香人蕉免费视频75| 亚洲人成电影网站色www| 在线视频免费国产成人| 疯狂做受xxxx高潮视频免费| 日韩亚洲国产综合久久久| 一级毛片完整版免费播放一区| 超清首页国产亚洲丝袜| 永久免费不卡在线观看黄网站| 亚洲免费人成在线视频观看| 一级毛片免费观看| 亚洲制服丝袜中文字幕| 国产大片91精品免费观看男同| 无码人妻一区二区三区免费视频| 亚洲熟妇无码乱子AV电影| 鲁大师在线影院免费观看| 99999久久久久久亚洲| 国产一精品一aⅴ一免费| 两性色午夜免费视频| 亚洲网站在线播放| 最新69国产成人精品免费视频动漫| 精品成人一区二区三区免费视频| 狠狠色婷婷狠狠狠亚洲综合| 日韩免费高清大片在线| 亚洲色无码专区一区| 久久精品国产亚洲Aⅴ蜜臀色欲| 中文字幕免费在线观看| 久久精品国产亚洲AV未满十八| 亚洲精品无码久久久久去q| 99久久国产热无码精品免费| 另类图片亚洲校园小说区| 亚洲国产成人精品无码区在线观看 | 免费a级毛片无码av| 男的把j放进女人下面视频免费| 久久久久se色偷偷亚洲精品av | 亚洲精品成人网久久久久久|