AIGC動態歡迎閱讀
內容摘要:
原文:https://zhuanlan.zhihu.com/p/695307425
在現有Transformer作為大模型框架下,萬物tokenizer將會是一個必然的趨勢!
01為什么我們需要Token化?tokenizer 實質是對樣本進行不同級別的語義分割,使得模型能夠更好把握樣本的層次結構,捕捉更多粒度的信息。其核心是將”非結構化的數據”轉化為”結構化的數據”,結構化數據就可以轉化為數學問題。對于Transformer來說,如果一個樣本對應的token數量越多,其計算量也就越大,但當token數量越少時,所傳入的信息就越少。因此,準確的設計tokenlearner對于 transformer的意義巨大[1],即要使得token的數量能夠盡可能的少,又要使得其能夠保留盡可能‘好’的樣本特征。
token是主干網絡處理的相對的最小基本單元, 而對于不同的語義級別與應用場景,其所需要的輸入數據的信息維度也應該不同,所以應該根據不同的語義級別,設置不同級別的、多梯度的tokenizer,從而能夠捕捉到不同粒度的信息,為模型與主干網絡提供更豐富的語義信息。例如VQVAE-2 [2]是
原文鏈接:關于Tokenizer的一些感想
聯系作者
文章來源:算法邦
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...