開源賽道太擠了！月之暗面開源新版Muon優化器

又「撞車」了。

原標題：開源賽道太擠了！月之暗面開源新版Muon優化器
文章來源：機器之心
內容字數：5559字

月之暗面開源高效優化器Muon：算力減半，效果翻倍

近日，月之暗面團隊搶先DeepSeek，開源了其改進版的Muon優化器，并發布了基于Muon訓練的3B/16B參數MoE模型Moonlight。該優化器在訓練大型語言模型方面展現出顯著優勢，僅需約52%的AdamW訓練FLOPs即可達到相當的性能，實現了算力減半，效果翻倍的目標。

Muon優化器改進及高效性
原始Muon優化器在小型語言模型訓練中表現出色，但擴展到大模型時性能提升減弱。月之暗面團隊通過添加權重衰減和一致的RMS更新兩項關鍵技術解決了這個問題。權重衰減防止模型權重過度增長，而一致的RMS更新確保了不同形狀矩陣之間更新的一致性，從而提高了Muon在大規模訓練中的穩定性和效率。Scaling law實驗表明，Muon的計算效率比AdamW提升了2倍。
Moonlight模型及性能突破
利用改進后的Muon優化器，月之暗面團隊訓練了Moonlight，一個3B/16B參數的MoE模型，訓練數據量達5.7萬億tokens。Moonlight刷新了當前的“帕累托前沿”，在相同訓練預算下，性能全面領先其他模型。它以更少的訓練FLOPs獲得了更好的性能，在語言、數學和編碼等任務上均表現出色。
分布式Muon及實驗結果
團隊還提出了一種基于ZeRO-1的分布式Muon解決方案，提高了訓練效率。實驗結果表明，通過調整RMS值，Muon可以與AdamW保持一致性，并顯著提升模型性能。在與AdamW的對比實驗中，Muon在計算最優設置下，僅需約52%的訓練FLOPs即可達到與AdamW相當的性能。
Muon在模型架構中的表現
使用DeepSeek-V3-Small架構從頭開始預訓練的Moonlight模型，在與其他開源模型的比較中，展現出顯著的性能優勢，證明了Muon在模型架構中的有效性。此外，Muon還能使模型的權重更新更“多樣化”，尤其在MoE模型中表現突出。在預訓練和微調階段都使用Muon，模型表現最佳。
開源貢獻及未來研究
月之暗面團隊開源了Muon的內存優化且通信高效的實現代碼，以及預訓練、指令調優和中間檢查點，為未來的研究提供了寶貴的資源。此次開源，再次體現了月之暗面在大型語言模型研究領域的領先地位。