<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

<button id="ykisw"><input id="ykisw"></input></button>

<code id="ykisw"><tr id="ykisw"></tr></code><dl id="ykisw"><acronym id="ykisw"></acronym></dl>

<rt id="ykisw"><acronym id="ykisw"></acronym></rt>

<rt id="ykisw"></rt>

<tfoot id="ykisw"></tfoot>

<li id="ykisw"><source id="ykisw"></source></li>

專家模型不要專家并行！微軟開源MoE新路徑

AIGC動態9個月前發布新智元

314 0 0

專家模型不要專家并行！微軟開源MoE新路徑

AIGC動態歡迎閱讀

原標題：專家模型不要專家并行！微軟開源MoE新路徑
關鍵字：模型,專家,梯度,張量,吞吐量
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：alan
【新智元導讀】近日，來自微軟的研究人員開源了使用全新方法訓練的MoE大模型，不走尋常路，且編碼和數學表現出色。繼Phi家族之后，微軟又開源了新的混合專家大模型——GRIN MoE。
與Phi-3.5同樣的個頭（16 * 3.8B），卻采用了截然不同的訓練方法。
這個「不走尋常路」如果寫個太長不看版，那就是兩句話：
1. 使用新一代SparseMixer來精確估計專家路由的梯度，解決傳統方案中利用門控梯度代替路由梯度的問題。
2. 專家并行不要了，訓練中改用數據、pipeline和張量并行，避免了傳統方法丟棄token的問題。
論文地址：https://arxiv.org/abs/2409.12136
當然了，上面兩句話是小編說的，多少有點糙，文中細節，還請諸君繼續閱讀~
這年頭，新來一個LLM，當然要先刷分了——
參數要少，效果要好，所以要在左上角：
GRIN作為MoE架構，總參數量約42B，推理時激活的參數為6.6B，打同級別（7B）的非MoE模型是手拿把攥，甚至比14B的Phi-3還要略勝一籌。
在上面的這份成績單中，GRIN MoE表現優異，尤其是在編

原文鏈接：專家模型不要專家并行！微軟開源MoE新路徑

聯系作者

文章來源：新智元
作者微信：
作者簡介：

# AIGC動態 # 專家 # 吞吐量 # 張量 # 梯度 # 模型

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...

主站蜘蛛池模板：亚洲成AV人片一区二区密柚| 女人18毛片免费观看| 亚洲免费在线观看| 免费激情视频网站| 亚洲人成中文字幕在线观看| 亚洲国产天堂久久综合网站| 亚洲欧美国产国产一区二区三区| 国产偷国产偷亚洲高清人| 日本一道综合久久aⅴ免费| 亚洲国产精品无码AAA片| 免费无码黄网站在线看| 一个人在线观看视频免费| 亚洲日本在线观看网址| 国产又黄又爽又猛免费app| 2017亚洲男人天堂一| 全免费A级毛片免费看网站 | 亚洲国产二区三区久久| 无码中文字幕av免费放dvd| 在线观看免费污视频| 在线观看亚洲免费视频| 亚洲伊人久久综合中文成人网| 中国在线观看免费的www| 日本免费一区尤物| 一级毛片免费观看不收费| 97在线观免费视频观看| 精品久久久久亚洲| 亚洲乱码一区二区三区在线观看 | 成年网站免费视频A在线双飞| 亚洲综合激情五月丁香六月| 国产一级高清免费观看| a级午夜毛片免费一区二区| 无码不卡亚洲成?人片| 亚洲中文字幕无码久久2020| 啊灬啊灬别停啊灬用力啊免费看| 亚洲成a人片在线观看中文app| 成人免费毛片视频| 一级特黄录像免费播放肥| 中文亚洲AV片在线观看不卡| 人妻免费久久久久久久了| 中文字幕亚洲色图| 2019中文字幕免费电影在线播放|

<abbr id="eqegg"><source id="eqegg"></source></abbr>

<rt id="eqegg"></rt>

<code id="eqegg"></code>

<rt id="eqegg"></rt>

<abbr id="eqegg"></abbr>

<button id="eqegg"></button>

<dl id="eqegg"><acronym id="eqegg"></acronym></dl>

<button id="eqegg"><source id="eqegg"></source></button>