Deepseek技術解讀3:MoE的演進之路
本篇講講deepseek在MoE上的演進過程。
原標題:Deepseek技術解讀3:MoE的演進之路
文章來源:智猩猩GenAI
內容字數(shù):15411字
DeepSeek MoE模型演進解讀
本文總結了DeepSeek在Mixture-of-Experts (MoE)模型上的演進過程,從DeepSeekMoE (V1)到DeepSeek V3,持續(xù)在MoE技術路線進行創(chuàng)新。文章結合論文和源碼,深入淺出地解釋了MoE的發(fā)展歷程以及DeepSeek的改進。
1. MoE發(fā)展歷程回顧
MoE的概念最早于1991年提出,其基本框架至今沿用:由專家網絡、門控網絡和選擇器三部分組成。專家網絡負責處理特定子任務;門控網絡根據(jù)輸入,為每個專家分配權重;選擇器根據(jù)權重選擇專家,并融合其輸出結果。Google在Transformer時代推動了MoE的發(fā)展,其GShard工作將模型規(guī)模擴展到600B,并引入了Transformer MoE層設計和負載均衡損失,以解決專家負載不均衡問題。負載均衡損失通過近似計算每個專家接收到的token比例來實現(xiàn),保證了其可微性,并能通過梯度更新進行優(yōu)化。
2. DeepSeekMoE (V1)的改進
DeepSeek V1針對現(xiàn)有MoE模型的知識混合性和知識冗余性問題,提出了兩項改進:細粒度專家分割和共享專家隔離。細粒度專家分割通過分割FFN中間隱藏維度來增加專家數(shù)量,提高知識分解的精度;共享專家隔離則將部分專家作為共享專家,用于捕獲不同上下文中的共同知識,減輕路由專家之間的冗余。V1版本還引入了專家級負載損失和設備級負載損失,用于平衡專家和設備間的計算負載。
3. DeepSeek V2的改進
DeepSeek V2在負載均衡方面做了三方面升級:1. 設備受限的專家路由機制,限制每個token激活的專家最多分布在M個設備上,降低通信成本;2. 增加通信負載均衡損失,平衡設備接收端的通信負載;3. 設備級Token丟棄策略,在訓練階段丟棄部分token以平衡設備計算負載。在推理階段,為了保持一致性,保留部分樣本不做token丟棄。
4. DeepSeek V3的改進
DeepSeek V3延續(xù)了細粒度專家和共享專家設計,并在門控網絡和負載均衡方面做了改進:1. 將門控網絡的softmax函數(shù)替換為sigmoid函數(shù),提升了在高維度專家數(shù)量下的區(qū)分度;2. 去除了輔助損失,通過動態(tài)調節(jié)每個專家的bias來實現(xiàn)負載均衡;3. 引入了sequence粒度的負均衡損失,平衡單個sequence的token分配。
5. DeepSeek MoE演進總結
DeepSeek MoE模型的演進過程體現(xiàn)了對專家專業(yè)化、負載均衡和效率的持續(xù)追求。從V1的細粒度專家分割和共享專家隔離,到V2的通信優(yōu)化和V3的無輔助損失負載均衡,DeepSeek不斷改進MoE模型,提升其性能和效率。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。