從零實現(xiàn)一個MOE(專家混合模型)
AIGC動態(tài)歡迎閱讀
原標題:從零實現(xiàn)一個MOE(專家混合模型)
關(guān)鍵字:專家,代碼,門控,部分,中國科學院
文章來源:算法邦
內(nèi)容字數(shù):0字
內(nèi)容摘要:
7月11日19點,「智猩猩自動駕駛新青年講座」第36講將開講,主講理想汽車最新成果:基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent,由理想汽車實習研究員、中國科學院自動化研究所在讀博士鄭宇鵬主講,主題為《面向自動駕駛的3D密集描述與閉環(huán)規(guī)劃智能體》。掃碼預約視頻號直播~原文:https://zhuanlan.zhihu.com/p/701777558
01什么是混合模型(MOE)MOE主要由兩個關(guān)鍵點組成:
一是將傳統(tǒng)Transformer中的FFN(前饋網(wǎng)絡(luò)層)替換為多個稀疏的專家層(Sparse MoE layers)。每個專家本身是一個的神經(jīng)網(wǎng)絡(luò),實際應用中,這些專家通常是前饋網(wǎng)絡(luò) (FFN),但也可以是更復雜的網(wǎng)絡(luò)結(jié)構(gòu)。
二是門控網(wǎng)絡(luò)或路由:此部分用來決定輸入的token分發(fā)給哪一個專家。
可能有對FFN(前饋網(wǎng)絡(luò)層)不太熟悉的小伙伴可以看一下下面的代碼及圖例,很簡單就是一個我們平時常見的結(jié)構(gòu)。
class FeedForward(nn.Module): def __init__(self, dim_vector, dim_hidden, dropout=0.1):
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應用。