AIGC動態歡迎閱讀
原標題:Karpathy新視頻又火了:從頭構建GPT Tokenizer
關鍵字:分詞,騰訊,模型,字節,算法
文章來源:量子位
內容字數:5240字
內容摘要:
豐色 魚羊 發自 凹非寺量子位 | 公眾號 QbitAI技術大神卡帕西離職OpenAI以后,營業可謂相當積極啊。
這不,前腳新項目剛上線,后腳全新的教學視頻又給大伙整出來了:
這次,是手把手教咱構建一個GPT Tokenizer(分詞器),還是熟悉的時長(足足2小時13分鐘)。
Ps. 上次講課還是倆月前的大模型科普。
所謂“卡帕西出手,必屬精品”,大伙火速碼碼碼:
今晚的約會取消,卡帕西來了我要去上課(狗頭)
再說一遍,付費都買不到的這樣高質量的課程,沖。
具體都有哪些干貨?
“太長不看版”已為大家準備好。
為什么要關注Tokenizer如大神介紹:
Tokenizer即分詞器是大語言模型pipeline中一個完全的階段。
它們有自己的訓練集、算法(比如BPE,字節對編碼),并在訓練完成后實現兩個功能:從字符串編碼到token,以及從token解碼回字符串。
為什么我們需要關注它?
卡帕西指出:
因為LLM中的很多奇怪行為和問題都可以追溯到它。
比如:
為什么大模型不能處理簡單的字符串處理任務,例如反轉?
為什么大模型在非英語語言任務方面的性能更差?
為什么大模型不擅長簡單的算術
原文鏈接:Karpathy新視頻又火了:從頭構建GPT Tokenizer
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...