MoE 高效訓練的 A/B 面：與魔鬼做交易，用「顯存」換「性能」

AIGC動態(tài)歡迎閱讀

原標題：MoE 高效訓練的 A/B 面：與魔鬼做交易，用「顯存」換「性能」
關鍵字：模型,架構(gòu),參數(shù),報告,高效
文章來源：AI科技評論
內(nèi)容字數(shù)：13708字

內(nèi)容摘要：

在高效訓練與高顯存占用之間橫跳的 MoE，更像是一門妥協(xié)的藝術。作者｜房曉楠
編輯｜陳彩嫻
MoE 會成為未來大模型訓練的新方向嗎？
這是人們發(fā)現(xiàn) MoE 架構(gòu)可以用于大模型訓練、推理后，發(fā)出的一聲疑問。
MoE（Mixture of Experts），又稱「混合專家」，本質(zhì)是一種模塊化的稀疏激活。怎么理解？
當前的大模型主要分為稠密（dense）模型與稀疏（sparse）模型，兩者的區(qū)別主要在于模型進行計算時，被調(diào)用的參數(shù)數(shù)量，參數(shù)全部生效使用的是稠密模型，比如 OpenAI 從第一代到第三代即 GPT-1、 GPT-2、 GPT-3，以及 Meta 的 Llama 系列都是稠密模型；只使用其中一部分參數(shù)的是稀疏模型，比如基于 MoE 架構(gòu)的模型，而這些被使用的參數(shù)稱為「激活參數(shù)」。
具體從網(wǎng)絡結(jié)構(gòu)來看，目前主流的大模型大都是基于 Transformer 架構(gòu)，由多個 Transformer Block 疊加組成，在每一個 Transformer Block 內(nèi)部都會包括兩層結(jié)構(gòu)，一層是多頭自注意力（Multi-Head Self-Attention），另一層是位置前饋神經(jīng)網(wǎng)絡（Po

原文鏈接：MoE 高效訓練的 A/B 面：與魔鬼做交易，用「顯存」換「性能」