又「撞車」了。
原標題:開源賽道太擠了!月之暗面開源新版Muon優化器
文章來源:機器之心
內容字數:5559字
月之暗面開源高效優化器Muon:算力減半,效果翻倍
近日,月之暗面團隊搶先DeepSeek,開源了其改進版的Muon優化器,并發布了基于Muon訓練的3B/16B參數MoE模型Moonlight。該優化器在訓練大型語言模型方面展現出顯著優勢,僅需約52%的AdamW訓練FLOPs即可達到相當的性能,實現了算力減半,效果翻倍的目標。
Muon優化器改進及高效性
原始Muon優化器在小型語言模型訓練中表現出色,但擴展到大模型時性能提升減弱。月之暗面團隊通過添加權重衰減和一致的RMS更新兩項關鍵技術解決了這個問題。權重衰減防止模型權重過度增長,而一致的RMS更新確保了不同形狀矩陣之間更新的一致性,從而提高了Muon在大規模訓練中的穩定性和效率。Scaling law實驗表明,Muon的計算效率比AdamW提升了2倍。
Moonlight模型及性能突破
利用改進后的Muon優化器,月之暗面團隊訓練了Moonlight,一個3B/16B參數的MoE模型,訓練數據量達5.7萬億tokens。Moonlight刷新了當前的“帕累托前沿”,在相同訓練預算下,性能全面領先其他模型。它以更少的訓練FLOPs獲得了更好的性能,在語言、數學和編碼等任務上均表現出色。
分布式Muon及實驗結果
團隊還提出了一種基于ZeRO-1的分布式Muon解決方案,提高了訓練效率。實驗結果表明,通過調整RMS值,Muon可以與AdamW保持一致性,并顯著提升模型性能。在與AdamW的對比實驗中,Muon在計算最優設置下,僅需約52%的訓練FLOPs即可達到與AdamW相當的性能。
Muon在模型架構中的表現
使用DeepSeek-V3-Small架構從頭開始預訓練的Moonlight模型,在與其他開源模型的比較中,展現出顯著的性能優勢,證明了Muon在模型架構中的有效性。此外,Muon還能使模型的權重更新更“多樣化”,尤其在MoE模型中表現突出。在預訓練和微調階段都使用Muon,模型表現最佳。
開源貢獻及未來研究
月之暗面團隊開源了Muon的內存優化且通信高效的實現代碼,以及預訓練、指令調優和中間檢查點,為未來的研究提供了寶貴的資源。此次開源,再次體現了月之暗面在大型語言模型研究領域的領先地位。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺