不分割成token，直接從字節(jié)中高效學(xué)習(xí)，Mamba原來還能這樣用

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：不分割成token，直接從字節(jié)中高效學(xué)習(xí)，Mamba原來還能這樣用
關(guān)鍵字：模型,字節(jié),序列,時間,建模
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：6575字

內(nèi)容摘要：

機器之心報道
編輯：張倩給出一句「Hello, world!」你要怎么把它喂給 AI 模型？目前常見的方法是利用某種算法將它分為若干 token，比如 [“Hello”, “,”, “world”, “!”]。模型通過學(xué)習(xí)這些 token 的上下文關(guān)系以及如何組合它們來表示原始文本或預(yù)測下一個 token。但這種方法依賴于有效的 token 分割算法，而且可能無法很好地處理新詞、專有名詞或非標(biāo)準(zhǔn)用法。因此，不少研究者也在嘗試另一種方法：直接讓模型從字節(jié)中學(xué)習(xí)。在 Mamba 問世之后，這條路似乎有希望了。
在定義語言模型時，通常會使用一種基本分詞方法，把句子分為詞（word）、子詞（subword）或字符（character）。其中，子詞分詞法一直是最受歡迎的選擇，因為它在訓(xùn)練效率和處理詞匯表外單詞的能力之間實現(xiàn)了自然的折中。然而，一些研究指出了子詞分詞法的問題，如對、拼寫和大小寫變化以及形態(tài)變化缺乏穩(wěn)健性。
因此，有些研究人員另辟蹊徑，采用了一種使用字節(jié)序列的方法，即從原始數(shù)據(jù)到預(yù)測的端到端映射，中間不進行任何分詞。與子詞模型相比，基于字節(jié)級的語言模型能夠更容易地在不同的書寫形

原文鏈接：不分割成token，直接從字節(jié)中高效學(xué)習(xí)，Mamba原來還能這樣用