從零復(fù)現(xiàn)Llama3代碼庫(kù)爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:從零復(fù)現(xiàn)Llama3代碼庫(kù)爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
關(guān)鍵字:向量,矩陣,注意力,權(quán)重,模型
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):8026字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI讓大神Andrej Karpathy一鍵三連??(點(diǎn)贊+轉(zhuǎn)發(fā)+評(píng)論),一個(gè)教你從頭開(kāi)始實(shí)現(xiàn)Llama3的代碼庫(kù)爆火。
X上轉(zhuǎn)贊收藏量超6.8k,GitHub攬星2k+。
火就火在,它教你從頭用Meta開(kāi)源的權(quán)重進(jìn)行推理,詳細(xì)解釋和展開(kāi)了注意力機(jī)制中多個(gè)頭的矩陣乘法、位置編碼以及所有中間層。
換句話(huà)說(shuō),他解釋了每行代碼都在干啥。
Karpathy看后直呼打造者Nishant Aklecha(后文暫稱(chēng)“納哥”)是個(gè)有品的人:
完全展開(kāi)后,比起模塊相互嵌套和調(diào)用時(shí),更容易理解每一步具體在做什么。
網(wǎng)友們對(duì)其也是贊不絕口,紛紛致敬:
話(huà)不多說(shuō),一起來(lái)看納哥是如何手把手教的。
(量子位在不改變?cè)獾幕A(chǔ)上,進(jìn)行了編譯整理)
從頭實(shí)現(xiàn)llama3在運(yùn)行納哥提供的文件前,大伙兒需要預(yù)先下載Meta官方提供的Llama3模型權(quán)重。
納哥表示自己沒(méi)搞器,推薦用Karpathy的現(xiàn)成簡(jiǎn)潔版BPE代碼。PS:
“字節(jié)級(jí)(byte-level)”BPE算法,在UTF-8編碼的字符串上運(yùn)行,廣泛應(yīng)用于大模型分詞。Karpathy提供的這個(gè)代碼庫(kù)包含兩個(gè)分詞器,都
原文鏈接:從零復(fù)現(xiàn)Llama3代碼庫(kù)爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破