Karpathy新視頻又火了：從頭構建GPT Tokenizer

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：Karpathy新視頻又火了：從頭構建GPT Tokenizer
關鍵字：分詞,騰訊,模型,字節,算法
文章來源：量子位
內容字數：5240字

內容摘要：

豐色魚羊發自凹非寺量子位 | 公眾號 QbitAI技術大神卡帕西離職OpenAI以后，營業可謂相當積極啊。
這不，前腳新項目剛上線，后腳全新的教學視頻又給大伙整出來了：
這次，是手把手教咱構建一個GPT Tokenizer（分詞器），還是熟悉的時長（足足2小時13分鐘）。
Ps. 上次講課還是倆月前的大模型科普。
所謂“卡帕西出手，必屬精品”，大伙火速碼碼碼：
今晚的約會取消，卡帕西來了我要去上課（狗頭）
再說一遍，付費都買不到的這樣高質量的課程，沖。
具體都有哪些干貨？
“太長不看版”已為大家準備好。
為什么要關注Tokenizer如大神介紹：
Tokenizer即分詞器是大語言模型pipeline中一個完全的階段。
它們有自己的訓練集、算法（比如BPE，字節對編碼），并在訓練完成后實現兩個功能：從字符串編碼到token，以及從token解碼回字符串。
為什么我們需要關注它？
卡帕西指出：
因為LLM中的很多奇怪行為和問題都可以追溯到它。
比如：
為什么大模型不能處理簡單的字符串處理任務，例如反轉？
為什么大模型在非英語語言任務方面的性能更差？
為什么大模型不擅長簡單的算術