<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

<dl id="24ci2"><strong id="24ci2"></strong></dl>

<bdo id="24ci2"><source id="24ci2"></source></bdo>

<rt id="24ci2"><tr id="24ci2"></tr></rt>

<button id="24ci2"><tbody id="24ci2"></tbody></button>

<button id="24ci2"></button>

關于Tokenizer的一些感想

AIGC動態10個月前發布算法邦

570 0 0

關于Tokenizer的一些感想

AIGC動態歡迎閱讀

原標題：關于Tokenizer的一些感想
關鍵字：粒度,分詞,語義,信息,切分
文章來源：算法邦
內容字數：0字

內容摘要：

原文：https://zhuanlan.zhihu.com/p/695307425
在現有Transformer作為大模型框架下，萬物tokenizer將會是一個必然的趨勢！
01為什么我們需要Token化？tokenizer 實質是對樣本進行不同級別的語義分割，使得模型能夠更好把握樣本的層次結構，捕捉更多粒度的信息。其核心是將”非結構化的數據”轉化為”結構化的數據”，結構化數據就可以轉化為數學問題。對于Transformer來說，如果一個樣本對應的token數量越多，其計算量也就越大，但當token數量越少時，所傳入的信息就越少。因此，準確的設計tokenlearner對于 transformer的意義巨大[1]，即要使得token的數量能夠盡可能的少，又要使得其能夠保留盡可能‘好’的樣本特征。
token是主干網絡處理的相對的最小基本單元，而對于不同的語義級別與應用場景，其所需要的輸入數據的信息維度也應該不同，所以應該根據不同的語義級別，設置不同級別的、多梯度的tokenizer，從而能夠捕捉到不同粒度的信息，為模型與主干網絡提供更豐富的語義信息。例如VQVAE-2 [2]是

原文鏈接：關于Tokenizer的一些感想

聯系作者

文章來源：算法邦
作者微信：
作者簡介：

# AIGC動態 # 信息 # 分詞 # 切分 # 粒度 # 語義

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

Trae官網

相關文章

Trae官網

暫無評論

暫無評論...

主站蜘蛛池模板：在线观看亚洲av每日更新| 88av免费观看入口在线| 黄+色+性+人免费| 中文字幕不卡亚洲 | 在线观看视频免费国语| 亚洲精品中文字幕无乱码| 久草免费手机视频| 亚洲av中文无码乱人伦在线咪咕| 久久久久久久久久免免费精品| 亚洲午夜福利精品无码| 男女男精品网站免费观看| 成人亚洲综合天堂| 九九免费精品视频在这里| 国产亚洲成归v人片在线观看| 成人免费av一区二区三区| 亚洲av永久无码精品漫画 | 色www永久免费网站| 久久国产亚洲精品麻豆| 国产成人久久AV免费| 亚洲精品国产av成拍色拍| 可以免费观看一级毛片黄a| 搜日本一区二区三区免费高清视频| 免费乱码中文字幕网站| 18禁无遮挡无码国产免费网站| 亚洲啪啪免费视频| 精品国产免费观看一区| 黄色一级免费网站| 亚洲熟妇av一区二区三区漫画| 青青草无码免费一二三区| 亚洲人妖女同在线播放| 亚洲中文字幕无码永久在线| 成人a免费α片在线视频网站| 99精品视频在线视频免费观看| 一级特黄录像视频免费| 亚洲天然素人无码专区| yy6080久久亚洲精品| 在线观看的免费网站| 免费国产草莓视频在线观看黄| 亚洲伊人久久大香线蕉在观| 久久精品国产精品亚洲艾| 国产乱子伦精品免费女|

<dl id="4qg2e"><tr id="4qg2e"></tr></dl>

<bdo id="4qg2e"></bdo>

<center id="4qg2e"><tr id="4qg2e"></tr></center>

<code id="4qg2e"></code>

<button id="4qg2e"></button>