AIGC動態歡迎閱讀
原標題:離開OpenAI的大神卡帕西「開課了」:新項目日增千星,還是熟悉的min代碼風
關鍵字:分詞,算法,文本,詞匯表,模型
文章來源:量子位
內容字數:2575字
內容摘要:
魚羊 發自 凹非寺量子位 | 公眾號 QbitAI大神Karpathy從OpenAI離職,原本揚言要大休一周。
但轉眼,新項目就已上線GitHub,日增上千星的那種。
還是熟悉的卡式配方:
74行Python代碼搞定大模型標記化(tokenization)中常用的BPE(Byte Pair Encoding)算法,實現該算法的最小、最干凈代碼版本。
甚至:
是不是有點快3萬標星的nanoGPT內味兒了?
這波啊,還真是讓網友們給猜著了:
Time to cook。
畢竟,Karpathy除了前特斯拉AI總監、OpenAI創始成員的title,最為網友所熟悉的,就是“AI領域大善人”、“擅長將復雜問題簡單化的卡老師”這樣的身份了(手動狗頭)。
BPE代碼最小化版本還是具體來看一下,Karpathy老師這次又煮出了一鍋什么樣的飯。
項目名minbpe已經說明一切:BPE算法的最小、最干凈代碼版本。
BPE(字節對編碼)是隨著GPT-2而流行起來的標記化算法。現在,包括GPT系列、Llama系列和Mistral在內,一眾大模型都用到了這一算法來訓練分詞器。
BPE的主要優勢在于:
高效:通過
原文鏈接:離開OpenAI的大神卡帕西「開課了」:新項目日增千星,還是熟悉的min代碼風
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...