從零實(shí)現(xiàn)一個(gè)MOE(專家混合模型)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:從零實(shí)現(xiàn)一個(gè)MOE(專家混合模型)
關(guān)鍵字:專家,代碼,門控,部分,中國科學(xué)院
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
7月11日19點(diǎn),「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實(shí)習(xí)研究員、中國科學(xué)院自動化研究所在讀博士鄭宇鵬主講,主題為《面向自動駕駛的3D密集描述與閉環(huán)規(guī)劃智能體》。掃碼預(yù)約視頻號直播~原文:https://zhuanlan.zhihu.com/p/701777558
01什么是混合模型(MOE)MOE主要由兩個(gè)關(guān)鍵點(diǎn)組成:
一是將傳統(tǒng)Transformer中的FFN(前饋網(wǎng)絡(luò)層)替換為多個(gè)稀疏的專家層(Sparse MoE layers)。每個(gè)專家本身是一個(gè)的神經(jīng)網(wǎng)絡(luò),實(shí)際應(yīng)用中,這些專家通常是前饋網(wǎng)絡(luò) (FFN),但也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。
二是門控網(wǎng)絡(luò)或路由:此部分用來決定輸入的token分發(fā)給哪一個(gè)專家。
可能有對FFN(前饋網(wǎng)絡(luò)層)不太熟悉的小伙伴可以看一下下面的代碼及圖例,很簡單就是一個(gè)我們平時(shí)常見的結(jié)構(gòu)。
class FeedForward(nn.Module): def __init__(self, dim_vector, dim_hidden, dropout=0.1):
原文鏈接:從零實(shí)現(xiàn)一個(gè)MOE(專家混合模型)
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號