AIGC動態歡迎閱讀
內容摘要:
新智元報道編輯:alan
【新智元導讀】近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。繼Phi家族之后,微軟又開源了新的混合專家大模型——GRIN MoE。
與Phi-3.5同樣的個頭(16 * 3.8B),卻采用了截然不同的訓練方法。
這個「不走尋常路」如果寫個太長不看版,那就是兩句話:
1. 使用新一代SparseMixer來精確估計專家路由的梯度,解決傳統方案中利用門控梯度代替路由梯度的問題。
2. 專家并行不要了,訓練中改用數據、pipeline和張量并行,避免了傳統方法丟棄token的問題。
論文地址:https://arxiv.org/abs/2409.12136
當然了,上面兩句話是小編說的,多少有點糙,文中細節,還請諸君繼續閱讀~
這年頭,新來一個LLM,當然要先刷分了——
參數要少,效果要好,所以要在左上角:
GRIN作為MoE架構,總參數量約42B,推理時激活的參數為6.6B,打同級別(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3還要略勝一籌。
在上面的這份成績單中,GRIN MoE表現優異,尤其是在編
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...