深度揭秘爆火MoE!GPT-4關(guān)鍵架構(gòu),成開源模型逆襲锏
AIGC動態(tài)歡迎閱讀
原標(biāo)題:深度揭秘爆火MoE!GPT-4關(guān)鍵架構(gòu),成開源模型逆襲锏
關(guān)鍵字:門控,模型,專家,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):7066字
內(nèi)容摘要:新智元報道編輯:編輯部【新智元導(dǎo)讀】上周末,Mistral甩出的開源MoE大模型,震驚了整個開源社區(qū)。MoE究竟是什么?它又是如何提升了大語言模型的性能?Mistral上周末丟出的磁力鏈接震驚了開源圈子,這個7B×8E的開源MoE大模型性能已經(jīng)到達了LLaMA2 70B的級別!而根據(jù)Jim Fan猜測,如果Mistral內(nèi)部訓(xùn)練了34B×8E或者甚至100B+×8E級別的模型,那他們的能力很有可能已經(jīng)無限接近GPT-4了。而在之前對于GPT-4結(jié)構(gòu)的曝料中,大部分的信息也指向GPT-4很可能是由8個或者是16個MoE構(gòu)成。為什么MoE能成為高性能大模型的必選項?簡單來說,MoE是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計,在Transformer模塊中集成了專家/模型層。當(dāng)數(shù)據(jù)流經(jīng)MoE層時,每個輸入token都會動態(tài)路由到專家子模型進行處理。當(dāng)每個專家專門從事特定任務(wù)時,這種方法可以實現(xiàn)更高效的計算并獲得更好…
原文鏈接:點此閱讀原文:深度揭秘爆火MoE!GPT-4關(guān)鍵架構(gòu),成開源模型逆襲锏
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。