ACE-Step

ACE-Step – ACE Studio聯合階躍星辰開源的音樂生成基礎模型

ACE-Step

ACE-Step 是由 ACE Studio 和 StepFun 聯合開發的一個開源音樂生成基礎模型，旨在通過其創新的架構設計，實現高效、連貫且可控的音樂創作。這一模型結合了擴散模型、深度壓縮自編碼器（DCAE）和輕量級線性變換器，使得生成高質量音樂的速度比傳統的大型語言模型快 15 倍。ACE-Step 支持多樣化的音樂風格、語言及可控性功能，為音樂創作者提供了強大的工具，適合快速生成音樂，并可作為多種音樂創作子任務的基礎模型，助力音樂人、制作人及內容創作者實現高效創作。

什么是ACE-Step

ACE-Step是一個由ACE Studio與StepFun聯合推出的開源音樂生成基礎模型。憑借創新的架構設計，ACE-Step實現了高效、連貫且可控的音樂創作。它結合了擴散模型、深度壓縮自編碼器（DCAE）和輕量級線性變換器，能夠在短時間內生成高質量音樂作品，速度比傳統的LLM（大型語言模型）快15倍。ACE-Step支持多種音樂風格和語言的生成，提供強大的音樂創作工具，適合快速生成音樂，并在多種音樂創作子任務中發揮基礎模型的作用，幫助音樂創作者和制作人高效完成創作。

ACE-Step的主要功能

快速合成：在極短的時間內生成高質量音樂，例如，在A100 GPU上僅需20秒即可生成4分鐘的音樂。
多樣化風格：支持多種流行音樂風格（如流行、搖滾、電子、爵士等）及多種語言的歌詞生成。
變體生成：可調整噪聲比例，生成不同的音樂變體，提供多樣化的選擇。
重繪功能：能夠對特定部分進行重新生成，修改風格、歌詞或人聲，同時保留其他元素。
歌詞編輯：允許對生成的音樂進行局部歌詞修改，而不影響旋律和伴奏。
多語言支持：支持19種語言，其中英語、中文、俄語、西班牙語、日語等10種語言表現尤為突出。
Lyric2Vocal：基于LoRA微調，從歌詞中直接生聲音頻。
Text2Samples：生成音樂樣本和循環，幫助制作人快速創建樂器循環和音效。

ACE-Step的技術原理

擴散模型（Diffusion Model）：通過逐步去除噪聲來生成數據，ACE-Step在傳統擴散模型在長結構連貫性上的不足方面進行了創新性設計，以快速合成音樂。
深度壓縮自編碼器：DCAE用于高效的數據壓縮和解壓，保留音樂的細致音頻特征，降低計算資源的消耗。
輕量級線性變換器：處理音樂序列信息，確保生成的音樂在旋律、和聲和節奏上具備連貫性。
語義對齊：通過MERT（Music Embedding Representation）和m-hubert技術，ACE-Step在訓練中對齊語義表示（REPA），實現快速收斂和高質量生成效果。
訓練優化：基于語義對齊和優化技術，ACE-Step能夠在短時間內生成高質量音樂，保持生成速度與連貫性之間的平衡。