SongCreator：智能音樂創作助手提升您的音樂創作體驗

SongCreator是一個由清華大學深圳國際研究生院和香港中文大學等機構聯合開發的創新歌曲生成系統。它能夠根據用戶提供的歌詞，生成完整的歌曲，包括聲樂和伴奏部分。該系統基于雙序列語言模型（DSLM）和注意力掩碼策略，具備處理多種歌曲生成任務的能力，諸如歌曲編輯和生成等。

SongCreator是什么

SongCreator是清華大學深圳國際研究生院和香港中文大學等機構推出的一款先進的歌曲生成系統，旨在從歌詞出發，生成包含聲樂和伴奏的完整音樂作品。該系統采用了雙序列語言模型（DSLM）與注意力掩碼策略，能夠理解和執行多種歌曲生成任務，尤其在將歌詞轉換為歌曲及聲樂方面表現卓越。SongCreator還允許用戶控制生成歌曲中的聲樂與伴奏，滿足不同的音樂創作需求。

SongCreator的主要功能

歌詞到歌曲（Lyrics-to-Song）：依據給定歌詞，生成包括聲樂和伴奏的完整歌曲。
歌詞到聲樂（Lyrics-to-Vocals）：僅根據歌詞生成聲樂部分，不包含伴奏。
伴奏到歌曲（Accompaniment-to-Song）：在給定伴奏的情況下，生成相應聲樂部分，形成完整歌曲。
聲樂到歌曲（Vocals-to-Song）：根據提供的聲樂部分生成伴奏，構成完整歌曲。
歌曲編輯（Song Editing）：在現有歌曲中修改特定段落，以匹配新的歌詞，并保持原歌曲的連貫性。
聲樂編輯（Vocals Editing）：對歌曲中的聲樂部分進行編輯，而不改變伴奏。
音樂延續（Music Continuation）：基于已有伴奏或聲樂生成連續的音樂部分。
無條件音樂生成：在沒有歌詞的情況下，生成音樂或聲樂。

SongCreator的技術原理

雙序列語言模型（DSLM）：DSLM用于捕捉聲樂和伴奏的信息，模型包含兩個解碼器，分別處理聲樂和伴奏，通過動態雙向交叉注意力模塊捕捉兩者之間的相互作用。
注意力掩碼策略：通過設計多種注意力掩碼策略，使得模型在不同歌曲生成任務中能夠以統一的方式運作，既支持編輯又支持理解與生成。
多任務訓練：通過多任務訓練提升作曲、編曲及理解能力，能有效處理復雜的音樂場景。
條件信號：支持多種輸入，包括歌詞、聲樂提示和伴奏提示，賦予生成歌曲高度靈活性和可控性。
語義令牌（Semantic Tokens）：使用BEST-RQ模型在未標記的數據集上進行訓練，提取出重建歌曲所需的語義和聲學細節的令牌。
潛在擴散模型（Latent Diffusion Model，LDM）：LDM用于將語義令牌解碼為高質量歌曲音頻，模型結合了變分自編碼器（VAE）和擴散模型，以實現高保真度和音樂性的生成。