AIGC動態歡迎閱讀
原標題:打破MoE訓練效率與性能瓶頸,華為盤古稀疏大模型全新架構LocMoE出爐
關鍵字:華為,專家,路由,門控,報告
文章來源:機器之心
內容字數:6726字
內容摘要:
機器之心專欄
機器之心編輯部2023 年 12 月,首個開源 MoE 大模型 Mixtral 8×7B 發布,在多種基準測試中,其表現近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理開銷僅相當于 12B 左右的稠密模型。為進一步提升模型性能,稠密 LLM 常由于其參數規模急劇擴張而面臨嚴峻的訓練成本。MoE 的廣泛應用,使得在計算成本相對不變的條件下,模型容量能夠得到顯著擴展。此特性無疑使得 MoE 成為推動 LLM 發展的關鍵技術。
MoE 設計的初衷,是使模型的學習更加 “術業有專攻”,其有效性已得到業界肯定。然而現有 MoE 架構訓練中的弊端也逐漸凸顯,主要包括:專家負載失衡、專家內樣本混雜而專家間同質化現象嚴重、額外的通信開銷等等。
為了緩解現有 MoE 普遍存在的訓練效率與性能瓶頸,專精于高性能計算、LLM 訓練加速的華為 GTS AI 計算 Lab的研究團隊提出了名為 LocMoE 的全新 MoE 架構,從路由機制角度出發,以期降低稀疏 LLM 訓練成本的同時,提升其性能。論文鏈接:https://arxiv.org/abs/2401.13920
論文簡介
在
原文鏈接:打破MoE訓練效率與性能瓶頸,華為盤古稀疏大模型全新架構LocMoE出爐
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...