<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」

        AIGC動態(tài)12個月前發(fā)布 AI科技評論
        376 0 0

        MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」

        AIGC動態(tài)歡迎閱讀

        原標題:MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
        關鍵字:模型,架構(gòu),參數(shù),報告,高效
        文章來源:AI科技評論
        內(nèi)容字數(shù):13708字

        內(nèi)容摘要:


        在高效訓練與高顯存占用之間橫跳的 MoE,更像是一門妥協(xié)的藝術。作者|房曉楠
        編輯|陳彩嫻
        MoE 會成為未來大模型訓練的新方向嗎?
        這是人們發(fā)現(xiàn) MoE 架構(gòu)可以用于大模型訓練、推理后,發(fā)出的一聲疑問。
        MoE(Mixture of Experts),又稱「混合專家」,本質(zhì)是一種模塊化的稀疏激活。怎么理解?
        當前的大模型主要分為稠密(dense)模型與稀疏(sparse)模型,兩者的區(qū)別主要在于模型進行計算時,被調(diào)用的參數(shù)數(shù)量,參數(shù)全部生效使用的是稠密模型,比如 OpenAI 從第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分參數(shù)的是稀疏模型,比如基于 MoE 架構(gòu)的模型,而這些被使用的參數(shù)稱為「激活參數(shù)」。
        具體從網(wǎng)絡結(jié)構(gòu)來看,目前主流的大模型大都是基于 Transformer 架構(gòu),由多個 Transformer Block 疊加組成,在每一個 Transformer Block 內(nèi)部都會包括兩層結(jié)構(gòu),一層是多頭自注意力(Multi-Head Self-Attention),另一層是位置前饋神經(jīng)網(wǎng)絡(Po


        原文鏈接:MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」

        聯(lián)系作者

        文章來源:AI科技評論
        作者微信:aitechtalk
        作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久精品成人免费国产片小草 | 日韩精品免费在线视频| 亚洲va久久久噜噜噜久久狠狠| 久久久久亚洲AV无码专区体验| 国产人在线成免费视频| 精品在线观看免费| 亚洲av日韩av高潮潮喷无码| 国产在线观看免费观看不卡| 日韩成人毛片高清视频免费看| 国产亚洲精AA在线观看SEE | 国产hs免费高清在线观看| 中文字幕视频在线免费观看| 色在线亚洲视频www| 最近中文字幕国语免费完整 | 国产在线精品一区免费香蕉 | 亚洲一本之道高清乱码| 亚洲成a人一区二区三区| 无码A级毛片免费视频内谢| 亚洲日韩国产二区无码| 区久久AAA片69亚洲| 成人免费777777| 在线观看亚洲AV日韩A∨| 亚洲中文字幕无码中文字在线| 老司机在线免费视频| 久久久久国色AV免费观看| 亚洲人成伊人成综合网久久| 亚洲精品tv久久久久| 国产免费一区二区三区免费视频| 亚洲乱码卡一卡二卡三| 亚洲精品无码久久千人斩| 日本免费人成黄页网观看视频| 日韩精品极品视频在线观看免费| 免费很黄无遮挡的视频毛片| xxx毛茸茸的亚洲| 久久亚洲国产成人亚| 亚洲国产精品激情在线观看| 成人免费看吃奶视频网站| 一区二区三区在线免费看| 久香草视频在线观看免费| 亚洲色大网站WWW永久网站| 亚洲精选在线观看|