Deepseek技術解讀3：MoE的演進之路

本篇講講deepseek在MoE上的演進過程。

原標題：Deepseek技術解讀3：MoE的演進之路
文章來源：智猩猩GenAI
內容字數：15411字

DeepSeek MoE模型演進解讀

本文總結了DeepSeek在Mixture-of-Experts (MoE)模型上的演進過程，從DeepSeekMoE (V1)到DeepSeek V3，持續在MoE技術路線進行創新。文章結合論文和源碼，深入淺出地解釋了MoE的發展歷程以及DeepSeek的改進。

1. MoE發展歷程回顧

MoE的概念最早于1991年提出，其基本框架至今沿用：由專家網絡、門控網絡和選擇器三部分組成。專家網絡負責處理特定子任務；門控網絡根據輸入，為每個專家分配權重；選擇器根據權重選擇專家，并融合其輸出結果。Google在Transformer時代推動了MoE的發展，其GShard工作將模型規模擴展到600B，并引入了Transformer MoE層設計和負載均衡損失，以解決專家負載不均衡問題。負載均衡損失通過近似計算每個專家接收到的token比例來實現，保證了其可微性，并能通過梯度更新進行優化。

2. DeepSeekMoE (V1)的改進

DeepSeek V1針對現有MoE模型的知識混合性和知識冗余性問題，提出了兩項改進：細粒度專家分割和共享專家隔離。細粒度專家分割通過分割FFN中間隱藏維度來增加專家數量，提高知識分解的精度；共享專家隔離則將部分專家作為共享專家，用于捕獲不同上下文中的共同知識，減輕路由專家之間的冗余。V1版本還引入了專家級負載損失和設備級負載損失，用于平衡專家和設備間的計算負載。

3. DeepSeek V2的改進

DeepSeek V2在負載均衡方面做了三方面升級：1. 設備受限的專家路由機制，限制每個token激活的專家最多分布在M個設備上，降低通信成本；2. 增加通信負載均衡損失，平衡設備接收端的通信負載；3. 設備級Token丟棄策略，在訓練階段丟棄部分token以平衡設備計算負載。在推理階段，為了保持一致性，保留部分樣本不做token丟棄。

4. DeepSeek V3的改進

DeepSeek V3延續了細粒度專家和共享專家設計，并在門控網絡和負載均衡方面做了改進：1. 將門控網絡的softmax函數替換為sigmoid函數，提升了在高維度專家數量下的區分度；2. 去除了輔助損失，通過動態調節每個專家的bias來實現負載均衡；3. 引入了sequence粒度的負均衡損失，平衡單個sequence的token分配。

5. DeepSeek MoE演進總結

DeepSeek MoE模型的演進過程體現了對專家專業化、負載均衡和效率的持續追求。從V1的細粒度專家分割和共享專家隔離，到V2的通信優化和V3的無輔助損失負載均衡，DeepSeek不斷改進MoE模型，提升其性能和效率。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # DeepSeek # MoE模型 # 專家混合網絡 # 稀疏MoE # 高效并行訓練

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Deepseek技術解讀3：MoE的演進之路

本篇講講deepseek在MoE上的演進過程。

DeepSeek MoE模型演進解讀

1. MoE發展歷程回顧

2. DeepSeekMoE (V1)的改進

3. DeepSeek V2的改進

4. DeepSeek V3的改進

5. DeepSeek MoE演進總結

聯系作者

LLM時代，計算蛋白質科學進展如何？香港理工大學等發布系統性綜述

「鯰魚」DeepSeek 正在攪動上下游

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Deepseek技術解讀3：MoE的演進之路

本篇講講deepseek在MoE上的演進過程。

DeepSeek MoE模型演進解讀

1. MoE發展歷程回顧

2. DeepSeekMoE (V1)的改進

3. DeepSeek V2的改進

4. DeepSeek V3的改進

5. DeepSeek MoE演進總結

聯系作者

LLM時代，計算蛋白質科學進展如何？香港理工大學等發布系統性綜述

「鯰魚」DeepSeek 正在攪動上下游

相關文章

暫無評論

ChatGPT

玩虛擬模特？

本篇講講deepseek在MoE上的演進過程。

LLM時代，計算蛋白質科學進展如何？香港理工大學等發布系統性綜述