AIGC動態歡迎閱讀
原標題:幻方AI ESFT:針對 MoE 的高效微調方案,媲美全參微調
關鍵字:專家,參數,解讀,任務,作者
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯片專場、智算集群技術論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業的嘉賓已確認演講或討論。掃名或購票~01背景本文中我們簡單介紹一下幻方 AI 最近發布的針對 MoE 模型的高效微調方案 ESFT。(PS:需要說明的是,作者僅在 DeepSeek-V2-Lite 上評估,其每層有多達 66 個專家,對于常見的每層 8 個或 16 個專家的 MoE 模型是否有用還待商榷。)
對應的論文為:[2407.01906] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
對應的開源模型為:Huggingface deepseek-ai (DeepSeek)
原文鏈接:幻方AI ESFT:針對 MoE 的高效微調方案,媲美全參微調
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...