<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器

        AIGC動態(tài)3個(gè)月前發(fā)布 機(jī)器之心
        565 0 0

        又「撞車」了。

        開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器

        原標(biāo)題:開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):5559字

        月之暗面開源高效優(yōu)化器Muon:算力減半,效果翻倍

        近日,月之暗面團(tuán)隊(duì)搶先DeepSeek,開源了其改進(jìn)版的Muon優(yōu)化器,并發(fā)布了基于Muon訓(xùn)練的3B/16B參數(shù)MoE模型Moonlight。該優(yōu)化器在訓(xùn)練大型語言模型方面展現(xiàn)出顯著優(yōu)勢,僅需約52%的AdamW訓(xùn)練FLOPs即可達(dá)到相當(dāng)?shù)男阅埽瑢?shí)現(xiàn)了算力減半,效果翻倍的目標(biāo)。

        1. Muon優(yōu)化器改進(jìn)及高效性

          原始Muon優(yōu)化器在小型語言模型訓(xùn)練中表現(xiàn)出色,但擴(kuò)展到大模型時(shí)性能提升減弱。月之暗面團(tuán)隊(duì)通過添加權(quán)重衰減和一致的RMS更新兩項(xiàng)關(guān)鍵技術(shù)解決了這個(gè)問題。權(quán)重衰減防止模型權(quán)重過度增長,而一致的RMS更新確保了不同形狀矩陣之間更新的一致性,從而提高了Muon在大規(guī)模訓(xùn)練中的穩(wěn)定性和效率。Scaling law實(shí)驗(yàn)表明,Muon的計(jì)算效率比AdamW提升了2倍。

        2. Moonlight模型及性能突破

          利用改進(jìn)后的Muon優(yōu)化器,月之暗面團(tuán)隊(duì)訓(xùn)練了Moonlight,一個(gè)3B/16B參數(shù)的MoE模型,訓(xùn)練數(shù)據(jù)量達(dá)5.7萬億tokens。Moonlight刷新了當(dāng)前的“帕累托前沿”,在相同訓(xùn)練預(yù)算下,性能全面領(lǐng)先其他模型。它以更少的訓(xùn)練FLOPs獲得了更好的性能,在語言、數(shù)學(xué)和編碼等任務(wù)上均表現(xiàn)出色。

        3. 分布式Muon及實(shí)驗(yàn)結(jié)果

          團(tuán)隊(duì)還提出了一種基于ZeRO-1的分布式Muon解決方案,提高了訓(xùn)練效率。實(shí)驗(yàn)結(jié)果表明,通過調(diào)整RMS值,Muon可以與AdamW保持一致性,并顯著提升模型性能。在與AdamW的對比實(shí)驗(yàn)中,Muon在計(jì)算最優(yōu)設(shè)置下,僅需約52%的訓(xùn)練FLOPs即可達(dá)到與AdamW相當(dāng)?shù)男阅堋?/p>

        4. Muon在模型架構(gòu)中的表現(xiàn)

          使用DeepSeek-V3-Small架構(gòu)從頭開始預(yù)訓(xùn)練的Moonlight模型,在與其他開源模型的比較中,展現(xiàn)出顯著的性能優(yōu)勢,證明了Muon在模型架構(gòu)中的有效性。此外,Muon還能使模型的權(quán)重更新更“多樣化”,尤其在MoE模型中表現(xiàn)突出。在預(yù)訓(xùn)練和微調(diào)階段都使用Muon,模型表現(xiàn)最佳。

        5. 開源貢獻(xiàn)及未來研究

          月之暗面團(tuán)隊(duì)開源了Muon的內(nèi)存優(yōu)化且通信高效的實(shí)現(xiàn)代碼,以及預(yù)訓(xùn)練、指令調(diào)優(yōu)和中間檢查點(diǎn),為未來的研究提供了寶貴的資源。此次開源,再次體現(xiàn)了月之暗面在大型語言模型研究領(lǐng)域的領(lǐng)先地位。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲无成人网77777| 国产91色综合久久免费| 亚洲AV无码一区二区三区在线| 亚洲国产主播精品极品网红| 国产成在线观看免费视频| 久热免费在线视频| 国产精品免费αv视频| 国产av无码专区亚洲av毛片搜| 亚洲人成电影青青在线播放| 国产av天堂亚洲国产av天堂| 亚洲精品高清一二区久久| 国产精品酒店视频免费看| 国产免费AV片在线播放唯爱网| 3344免费播放观看视频| 日批视频网址免费观看| 无码的免费不卡毛片视频| 亚洲av第一网站久章草| 国产精品亚洲综合久久| 国产精品亚洲综合五月天| 亚洲成人网在线观看| 色婷婷亚洲十月十月色天| 久久综合日韩亚洲精品色| 亚洲va国产va天堂va久久| 亚洲人成影院在线无码按摩店| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 亚洲人成网站在线播放2019| 亚洲制服丝袜在线播放| 亚洲av永久综合在线观看尤物| 亚洲国产日韩在线人成下载| 亚洲精品国产啊女成拍色拍| 亚洲色图黄色小说| 亚洲黄色免费网站| 亚洲精品电影在线| 亚洲av午夜精品无码专区| 亚洲精品国产国语| 亚洲日本成本人观看| 日韩色视频一区二区三区亚洲| 日日摸日日碰夜夜爽亚洲| 日本一区二区三区在线视频观看免费 | 特a级免费高清黄色片 | 国产亚洲精品自在久久|