<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Deepseek技術解讀3:MoE的演進之路

        AIGC動態(tài)5個月前發(fā)布 智猩猩GenAI
        621 0 0

        本篇講講deepseek在MoE上的演進過程。

        Deepseek技術解讀3:MoE的演進之路

        原標題:Deepseek技術解讀3:MoE的演進之路
        文章來源:智猩猩GenAI
        內容字數(shù):15411字

        DeepSeek MoE模型演進解讀

        本文總結了DeepSeek在Mixture-of-Experts (MoE)模型上的演進過程,從DeepSeekMoE (V1)到DeepSeek V3,持續(xù)在MoE技術路線進行創(chuàng)新。文章結合論文和源碼,深入淺出地解釋了MoE的發(fā)展歷程以及DeepSeek的改進。

        1. MoE發(fā)展歷程回顧

        MoE的概念最早于1991年提出,其基本框架至今沿用:由專家網絡、門控網絡和選擇器三部分組成。專家網絡負責處理特定子任務;門控網絡根據(jù)輸入,為每個專家分配權重;選擇器根據(jù)權重選擇專家,并融合其輸出結果。Google在Transformer時代推動了MoE的發(fā)展,其GShard工作將模型規(guī)模擴展到600B,并引入了Transformer MoE層設計和負載均衡損失,以解決專家負載不均衡問題。負載均衡損失通過近似計算每個專家接收到的token比例來實現(xiàn),保證了其可微性,并能通過梯度更新進行優(yōu)化。

        2. DeepSeekMoE (V1)的改進

        DeepSeek V1針對現(xiàn)有MoE模型的知識混合性和知識冗余性問題,提出了兩項改進:細粒度專家分割和共享專家隔離。細粒度專家分割通過分割FFN中間隱藏維度來增加專家數(shù)量,提高知識分解的精度;共享專家隔離則將部分專家作為共享專家,用于捕獲不同上下文中的共同知識,減輕路由專家之間的冗余。V1版本還引入了專家級負載損失和設備級負載損失,用于平衡專家和設備間的計算負載。

        3. DeepSeek V2的改進

        DeepSeek V2在負載均衡方面做了三方面升級:1. 設備受限的專家路由機制,限制每個token激活的專家最多分布在M個設備上,降低通信成本;2. 增加通信負載均衡損失,平衡設備接收端的通信負載;3. 設備級Token丟棄策略,在訓練階段丟棄部分token以平衡設備計算負載。在推理階段,為了保持一致性,保留部分樣本不做token丟棄。

        4. DeepSeek V3的改進

        DeepSeek V3延續(xù)了細粒度專家和共享專家設計,并在門控網絡和負載均衡方面做了改進:1. 將門控網絡的softmax函數(shù)替換為sigmoid函數(shù),提升了在高維度專家數(shù)量下的區(qū)分度;2. 去除了輔助損失,通過動態(tài)調節(jié)每個專家的bias來實現(xiàn)負載均衡;3. 引入了sequence粒度的負均衡損失,平衡單個sequence的token分配。

        5. DeepSeek MoE演進總結

        DeepSeek MoE模型的演進過程體現(xiàn)了對專家專業(yè)化、負載均衡和效率的持續(xù)追求。從V1的細粒度專家分割和共享專家隔離,到V2的通信優(yōu)化和V3的無輔助損失負載均衡,DeepSeek不斷改進MoE模型,提升其性能和效率。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产在线播放线91免费| 亚洲爆乳大丰满无码专区| 成在线人永久免费视频播放| 成年女人午夜毛片免费看| 亚洲M码 欧洲S码SSS222| 337p日本欧洲亚洲大胆人人| 国产精品无码一区二区三区免费| 婷婷亚洲天堂影院| 亚洲精品二区国产综合野狼| 亚洲日本乱码一区二区在线二产线 | 又粗又大又黑又长的免费视频| 亚洲欧洲另类春色校园小说| 韩国免费一级成人毛片| 亚洲午夜无码久久久久小说| 久久久精品视频免费观看| 亚洲精品无码mv在线观看网站| 国产免费一区二区三区在线观看| 亚洲天堂男人天堂| 特级毛片A级毛片免费播放| 麻豆最新国产剧情AV原创免费| 中文字幕无码精品亚洲资源网久久 | 免费v片在线观看品善网| h视频在线观看免费| 亚洲成色在线影院| aa在线免费观看| 亚洲精品国产成人| 日本免费在线中文字幕| 亚洲成人高清在线观看| 国产一区二区免费在线| 中文有码亚洲制服av片| 亚洲第一网站男人都懂| 人妻丰满熟妇无码区免费| 亚洲午夜成人精品无码色欲| 亚洲精品国产成人影院| 精品免费人成视频app| 亚洲精品无码专区在线| 在线精品免费视频无码的 | 黄网站色视频免费在线观看的a站最新| 亚洲成人黄色在线| 久久久久亚洲AV成人网人人软件| 黄在线观看www免费看|