<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        專家模型不要專家并行!微軟開源MoE新路徑

        AIGC動態6個月前發布 新智元
        307 0 0

        專家模型不要專家并行!微軟開源MoE新路徑

        AIGC動態歡迎閱讀

        原標題:專家模型不要專家并行!微軟開源MoE新路徑
        關鍵字:模型,專家,梯度,張量,吞吐量
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:alan
        【新智元導讀】近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。繼Phi家族之后,微軟又開源了新的混合專家大模型——GRIN MoE。
        與Phi-3.5同樣的個頭(16 * 3.8B),卻采用了截然不同的訓練方法。
        這個「不走尋常路」如果寫個太長不看版,那就是兩句話:
        1. 使用新一代SparseMixer來精確估計專家路由的梯度,解決傳統方案中利用門控梯度代替路由梯度的問題。
        2. 專家并行不要了,訓練中改用數據、pipeline和張量并行,避免了傳統方法丟棄token的問題。
        論文地址:https://arxiv.org/abs/2409.12136
        當然了,上面兩句話是小編說的,多少有點糙,文中細節,還請諸君繼續閱讀~
        這年頭,新來一個LLM,當然要先刷分了——
        參數要少,效果要好,所以要在左上角:
        GRIN作為MoE架構,總參數量約42B,推理時激活的參數為6.6B,打同級別(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3還要略勝一籌。
        在上面的這份成績單中,GRIN MoE表現優異,尤其是在編


        原文鏈接:專家模型不要專家并行!微軟開源MoE新路徑

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av无码一区二区乱子伦as| 国产精品亚洲αv天堂无码| 亚洲国产另类久久久精品| 精品国产_亚洲人成在线| 免费被黄网站在观看| 亚洲AV无码一区二区三区性色| 在线观看免费精品国产| 国产亚洲综合久久| 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 亚洲日韩精品国产一区二区三区| 国产免费AV片在线播放唯爱网| 亚洲人成电影青青在线播放| A级毛片内射免费视频| 亚洲一区中文字幕在线电影网 | 亚洲国产精品日韩在线观看| 最新中文字幕免费视频| 在线亚洲v日韩v| 亚洲一区精品伊人久久伊人| 中文成人久久久久影院免费观看| 久久精品7亚洲午夜a| 亚洲免费视频播放| 亚洲中文字幕无码亚洲成A人片| 国产美女无遮挡免费视频网站 | 国内精品免费视频精选在线观看| 亚洲成a人片77777老司机| 18国产精品白浆在线观看免费| 亚洲三级在线免费观看| 日韩一级免费视频| 久久一区二区免费播放| 亚洲精品高清国产麻豆专区| 成人a免费α片在线视频网站| 免费夜色污私人影院网站电影| 久久精品国产亚洲AV网站| 国产精品成人免费视频网站京东| 一级黄色免费大片| 日木av无码专区亚洲av毛片| 免费无遮挡无码视频网站| 国产免费网站看v片在线| 亚洲一区二区三区久久久久| 亚洲中文字幕视频国产| 国拍在线精品视频免费观看|