群魔亂舞:MoE大模型詳解
AIGC動態(tài)歡迎閱讀
原標(biāo)題:群魔亂舞:MoE大模型詳解
關(guān)鍵字:模型,專家,門控,報告,數(shù)據(jù)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):38687字
內(nèi)容摘要:
700個開發(fā)硬件免費申請?現(xiàn)金大獎!生成式 AI、機器人 AI、PC AI 三大賽道!AMD Pervasive AI 開發(fā)者挑戰(zhàn)賽報名火熱進行中,掃碼了解詳情并報名~導(dǎo)讀本文是知乎作者絕密伏擊分享整理的MoE大模型相關(guān)知識,文內(nèi)系統(tǒng)性地介紹了混合專家模型(MoE),并對 MoE 的高效訓(xùn)練方法,以及如何提升訓(xùn)練和 Fine-Tuning 的效果進行了詳細(xì)介紹。
原文地址:
https://zhuanlan.zhihu.com/p/677638939
本文只做學(xué)術(shù)分享,如有侵權(quán),聯(lián)系刪文。GPT-4是8個2200億MoE模型
GPT-4遠(yuǎn)不止1萬億,甚至,還是8個2200億參數(shù)組成的混合專家模型(MoE)。
2023年6月,美國知名駭客George Hotz在接受采訪時透露,GPT-4由8個220B模型組成。這么算來,8 x 220B = 1.76萬億。就連PyTorch的創(chuàng)建者Soumith Chintala對此也深信不疑。
下面這張8頭怪,看起來就像現(xiàn)在的GPT-4。MoE 應(yīng)用于大模型,GPT-4并不是第一個。在2022年的時候,Google 就提出了MoE大模型Switch T
原文鏈接:群魔亂舞:MoE大模型詳解
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計算機視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會。