開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器
又「撞車」了。
原標(biāo)題:開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5559字
月之暗面開源高效優(yōu)化器Muon:算力減半,效果翻倍
近日,月之暗面團(tuán)隊(duì)搶先DeepSeek,開源了其改進(jìn)版的Muon優(yōu)化器,并發(fā)布了基于Muon訓(xùn)練的3B/16B參數(shù)MoE模型Moonlight。該優(yōu)化器在訓(xùn)練大型語言模型方面展現(xiàn)出顯著優(yōu)勢,僅需約52%的AdamW訓(xùn)練FLOPs即可達(dá)到相當(dāng)?shù)男阅埽瑢?shí)現(xiàn)了算力減半,效果翻倍的目標(biāo)。
Muon優(yōu)化器改進(jìn)及高效性
原始Muon優(yōu)化器在小型語言模型訓(xùn)練中表現(xiàn)出色,但擴(kuò)展到大模型時(shí)性能提升減弱。月之暗面團(tuán)隊(duì)通過添加權(quán)重衰減和一致的RMS更新兩項(xiàng)關(guān)鍵技術(shù)解決了這個(gè)問題。權(quán)重衰減防止模型權(quán)重過度增長,而一致的RMS更新確保了不同形狀矩陣之間更新的一致性,從而提高了Muon在大規(guī)模訓(xùn)練中的穩(wěn)定性和效率。Scaling law實(shí)驗(yàn)表明,Muon的計(jì)算效率比AdamW提升了2倍。
Moonlight模型及性能突破
利用改進(jìn)后的Muon優(yōu)化器,月之暗面團(tuán)隊(duì)訓(xùn)練了Moonlight,一個(gè)3B/16B參數(shù)的MoE模型,訓(xùn)練數(shù)據(jù)量達(dá)5.7萬億tokens。Moonlight刷新了當(dāng)前的“帕累托前沿”,在相同訓(xùn)練預(yù)算下,性能全面領(lǐng)先其他模型。它以更少的訓(xùn)練FLOPs獲得了更好的性能,在語言、數(shù)學(xué)和編碼等任務(wù)上均表現(xiàn)出色。
分布式Muon及實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)還提出了一種基于ZeRO-1的分布式Muon解決方案,提高了訓(xùn)練效率。實(shí)驗(yàn)結(jié)果表明,通過調(diào)整RMS值,Muon可以與AdamW保持一致性,并顯著提升模型性能。在與AdamW的對比實(shí)驗(yàn)中,Muon在計(jì)算最優(yōu)設(shè)置下,僅需約52%的訓(xùn)練FLOPs即可達(dá)到與AdamW相當(dāng)?shù)男阅堋?/p>
Muon在模型架構(gòu)中的表現(xiàn)
使用DeepSeek-V3-Small架構(gòu)從頭開始預(yù)訓(xùn)練的Moonlight模型,在與其他開源模型的比較中,展現(xiàn)出顯著的性能優(yōu)勢,證明了Muon在模型架構(gòu)中的有效性。此外,Muon還能使模型的權(quán)重更新更“多樣化”,尤其在MoE模型中表現(xiàn)突出。在預(yù)訓(xùn)練和微調(diào)階段都使用Muon,模型表現(xiàn)最佳。
開源貢獻(xiàn)及未來研究
月之暗面團(tuán)隊(duì)開源了Muon的內(nèi)存優(yōu)化且通信高效的實(shí)現(xiàn)代碼,以及預(yù)訓(xùn)練、指令調(diào)優(yōu)和中間檢查點(diǎn),為未來的研究提供了寶貴的資源。此次開源,再次體現(xiàn)了月之暗面在大型語言模型研究領(lǐng)域的領(lǐng)先地位。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺