離開OpenAI的大神卡帕西「開課了」：新項目日增千星，還是熟悉的min代碼風(fēng)

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：離開OpenAI的大神卡帕西「開課了」：新項目日增千星，還是熟悉的min代碼風(fēng)
關(guān)鍵字：分詞,算法,文本,詞匯表,模型
文章來源：量子位
內(nèi)容字?jǐn)?shù)：2575字

內(nèi)容摘要：

魚羊發(fā)自凹非寺量子位 | 公眾號 QbitAI大神Karpathy從OpenAI離職，原本揚言要大休一周。
但轉(zhuǎn)眼，新項目就已上線GitHub，日增上千星的那種。
還是熟悉的卡式配方：
74行Python代碼搞定大模型標(biāo)記化（tokenization）中常用的BPE（Byte Pair Encoding）算法，實現(xiàn)該算法的最小、最干凈代碼版本。
甚至：
是不是有點快3萬標(biāo)星的nanoGPT內(nèi)味兒了？
這波啊，還真是讓網(wǎng)友們給猜著了：
Time to cook。
畢竟，Karpathy除了前特斯拉AI總監(jiān)、OpenAI創(chuàng)始成員的title，最為網(wǎng)友所熟悉的，就是“AI領(lǐng)域大善人”、“擅長將復(fù)雜問題簡單化的卡老師”這樣的身份了（手動狗頭）。
BPE代碼最小化版本還是具體來看一下，Karpathy老師這次又煮出了一鍋什么樣的飯。
項目名minbpe已經(jīng)說明一切：BPE算法的最小、最干凈代碼版本。
BPE（字節(jié)對編碼）是隨著GPT-2而流行起來的標(biāo)記化算法。現(xiàn)在，包括GPT系列、Llama系列和Mistral在內(nèi)，一眾大模型都用到了這一算法來訓(xùn)練分詞器。
BPE的主要優(yōu)勢在于：
高效：通過

原文鏈接：離開OpenAI的大神卡帕西「開課了」：新項目日增千星，還是熟悉的min代碼風(fēng)