<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        微軟讓MoE長出多個頭,大幅提升專家激活率

        AIGC動態1年前 (2024)發布 機器之心
        381 0 0

        微軟讓MoE長出多個頭,大幅提升專家激活率

        AIGC動態歡迎閱讀

        原標題:微軟讓MoE長出多個頭,大幅提升專家激活率
        關鍵字:專家,多頭,語義,模型,語言
        文章來源:機器之心
        內容字數:7757字

        內容摘要:


        機器之心報道
        編輯:Panda WMH-MoE 能優化幾乎所有專家,實現起來非常簡單。混合專家(MoE)是個好方法,支持著現在一些非常優秀的大模型,比如谷歌家的 Gemini 1.5 以及備受關注的 Mixtral 8x7B。
        稀疏混合專家(SMoE)可在不顯著增加訓練和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一個 SMoE 模型,其包含 8 個專家(共 7B 參數),而其表現卻可以超過或比肩 LLaMA-2 70B 和 GPT-3.5。
        但是,它也有兩個問題。一是專家激活率低 —— 也就是搞不好會出現下圖這種情況:具體來說,就是在優化時只有一小部分專家會被激活,如圖 1a 所示(8.33% 的激活率),這會導致在學習應對復雜任務的大量專家時,會出現性能次優和效果不佳的問題。二是無法細粒度地分析單個 token 的多重語義概念,比如多義詞和具有多重細節的圖塊。
        近日,微軟研究院和清華大學提出了多頭混合專家(MH-MoE)。顧名思義,MH-MoE 采用了多頭機制,可將每個輸入 token 分成多個子 token。然后將這些子 token 分配給一組多樣化的專家


        原文鏈接:微軟讓MoE長出多個頭,大幅提升專家激活率

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产成人精品无码免费看| 香港一级毛片免费看| 三根一起会坏掉的好痛免费三级全黄的视频在线观看 | 免费人成在线观看网站视频 | 亚洲天堂2016| 一二三四在线观看免费高清中文在线观看| 黄页网站在线看免费| 亚洲成av人片在线看片| 免费无遮挡无码视频在线观看| 国产免费131美女视频| 久久亚洲AV成人无码国产电影 | 国产精品永久免费视频| 国产在线a免费观看| 伊人久久五月丁香综合中文亚洲 | 亚洲日韩亚洲另类激情文学| 国产免费拔擦拔擦8x| 一级做a爰黑人又硬又粗免费看51社区国产精品视 | 一区免费在线观看| 亚洲色精品88色婷婷七月丁香| a级毛片无码免费真人久久| 久久久婷婷五月亚洲97号色 | 四虎国产成人永久精品免费| 亚洲精品亚洲人成在线观看下载| 免费一区二区三区在线视频| 亚洲综合在线另类色区奇米| www亚洲精品久久久乳| 日韩精品无码区免费专区| 久久久久无码精品亚洲日韩| 久久精品国产免费观看三人同眠| 亚洲综合在线一区二区三区| 国产精品酒店视频免费看| 两个人www免费高清视频| 亚洲国产片在线观看| 国产18禁黄网站免费观看| 波多野结衣免费一区视频| 亚洲伊人久久精品| jlzzjlzz亚洲乱熟在线播放| 日本zzzzwww大片免费| 女人裸身j部免费视频无遮挡| 久久精品亚洲中文字幕无码网站| 最新亚洲成av人免费看|