打破MoE訓練效率與性能瓶頸，華為盤古稀疏大模型全新架構LocMoE出爐

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：打破MoE訓練效率與性能瓶頸，華為盤古稀疏大模型全新架構LocMoE出爐
關鍵字：華為,專家,路由,門控,報告
文章來源：機器之心
內容字數：6726字

內容摘要：

機器之心專欄
機器之心編輯部2023 年 12 月，首個開源 MoE 大模型 Mixtral 8×7B 發布，在多種基準測試中，其表現近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理開銷僅相當于 12B 左右的稠密模型。為進一步提升模型性能，稠密 LLM 常由于其參數規模急劇擴張而面臨嚴峻的訓練成本。MoE 的廣泛應用，使得在計算成本相對不變的條件下，模型容量能夠得到顯著擴展。此特性無疑使得 MoE 成為推動 LLM 發展的關鍵技術。
MoE 設計的初衷，是使模型的學習更加 “術業有專攻”，其有效性已得到業界肯定。然而現有 MoE 架構訓練中的弊端也逐漸凸顯，主要包括：專家負載失衡、專家內樣本混雜而專家間同質化現象嚴重、額外的通信開銷等等。
為了緩解現有 MoE 普遍存在的訓練效率與性能瓶頸，專精于高性能計算、LLM 訓練加速的華為 GTS AI 計算 Lab的研究團隊提出了名為 LocMoE 的全新 MoE 架構，從路由機制角度出發，以期降低稀疏 LLM 訓練成本的同時，提升其性能。論文鏈接：https://arxiv.org/abs/2401.13920
論文簡介
在

原文鏈接：打破MoE訓練效率與性能瓶頸，華為盤古稀疏大模型全新架構LocMoE出爐