從零手搓MoE大模型,大神級(jí)教程來了

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:從零手搓MoE大模型,大神級(jí)教程來了
關(guān)鍵字:門控,模型,專家,注意力,分?jǐn)?shù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):2986字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI傳說中GPT-4的“致勝法寶”——MoE(混合專家)架構(gòu),自己也能手搓了!
Hugging Face上有一位機(jī)器學(xué)神,分享了如何從頭開始建立一套完整的MoE系統(tǒng)。
這個(gè)項(xiàng)目被作者叫做MakeMoE,詳細(xì)講述了從注意力構(gòu)建到形成完整MoE模型的過程。
作者介紹,MakeMoE是受到OpenAI創(chuàng)始成員Andrej Karpathy的makemore啟發(fā)并以之為基礎(chǔ)編寫的。
makemore是一個(gè)針對(duì)自然語言處理和機(jī)器學(xué)習(xí)的教學(xué)項(xiàng)目,意在幫助學(xué)習(xí)者理解并實(shí)現(xiàn)一些基本模型。
同樣,MakeMoE也是在一步步的搭建過程中,幫助學(xué)習(xí)者更深刻地理解混合專家模型。
那么,這份“手搓攻略”具體都講了些什么呢?
從頭開始搭建MoE模型和Karpathy的makemore相比,MakeMoE用稀疏的專家混合體代替了孤立的前饋神經(jīng)網(wǎng)絡(luò),同時(shí)加入了必要的門控邏輯。
同時(shí),由于過程中需要用到ReLU激活函數(shù),makemore中的默認(rèn)初始化方式被替換成了Kaiming He方法。
想要?jiǎng)?chuàng)建一個(gè)MoE模型,首先要理解自注意力機(jī)制。
模型首先通過線性變換,將輸入
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)