不分割成token,直接從字節(jié)中高效學(xué)習(xí),Mamba原來還能這樣用
AIGC動態(tài)歡迎閱讀
原標(biāo)題:不分割成token,直接從字節(jié)中高效學(xué)習(xí),Mamba原來還能這樣用
關(guān)鍵字:模型,字節(jié),序列,時間,建模
文章來源:機器之心
內(nèi)容字?jǐn)?shù):6575字
內(nèi)容摘要:
機器之心報道
編輯:張倩給出一句「Hello, world!」你要怎么把它喂給 AI 模型?目前常見的方法是利用某種算法將它分為若干 token,比如 [“Hello”, “,”, “world”, “!”]。模型通過學(xué)習(xí)這些 token 的上下文關(guān)系以及如何組合它們來表示原始文本或預(yù)測下一個 token。但這種方法依賴于有效的 token 分割算法,而且可能無法很好地處理新詞、專有名詞或非標(biāo)準(zhǔn)用法。因此,不少研究者也在嘗試另一種方法:直接讓模型從字節(jié)中學(xué)習(xí)。在 Mamba 問世之后,這條路似乎有希望了。
在定義語言模型時,通常會使用一種基本分詞方法,把句子分為詞(word)、子詞(subword)或字符(character)。其中,子詞分詞法一直是最受歡迎的選擇,因為它在訓(xùn)練效率和處理詞匯表外單詞的能力之間實現(xiàn)了自然的折中。然而,一些研究指出了子詞分詞法的問題,如對、拼寫和大小寫變化以及形態(tài)變化缺乏穩(wěn)健性。
因此,有些研究人員另辟蹊徑,采用了一種使用字節(jié)序列的方法,即從原始數(shù)據(jù)到預(yù)測的端到端映射,中間不進行任何分詞。與子詞模型相比,基于字節(jié)級的語言模型能夠更容易地在不同的書寫形
原文鏈接:不分割成token,直接從字節(jié)中高效學(xué)習(xí),Mamba原來還能這樣用
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺