SongGen

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是什么

SongGen是由上海AI Lab、北京航空航天大學和香港中文大合開發的一種先進的單階段自回歸Transformer模型，主要用于根據文本生成歌曲。該模型以歌詞及描述性文本（如樂器、風格、情感等）為輸入，提供兩種輸出模式：混合模式和模式。混合模式用于生成包含人聲和伴奏的合成音頻，而模式則分別生聲和伴奏，便于后期編輯和處理。SongGen通過創新的音頻標記化技術和訓練策略，顯著提升了生成歌曲的自然性和人聲的清晰度，有效解決了傳統多階段生成方法中復雜的訓練和推理流程。它的開源特性和高質量的數據集為未來的音樂生成研究奠定了新的基準。

SongGen

SongGen的主要功能

精細控制：用戶可以基于歌詞和描述性文本（如樂器、風格、情感等）對生成的歌曲進行精準控制。
聲音克隆：支持通過三秒的參考音頻實現聲音克隆，使生成的歌曲能夠呈現特定歌手的音色特征。
雙重生成模式：提供“混合模式”（直接生聲與伴奏的混合音頻）和“模式”（分別生成便于后期編輯的人聲和伴奏）。
高質量音頻輸出：通過優化的音頻標記化和訓練策略，生成自然度高且人聲清晰的歌曲。

SongGen的技術原理

自回歸生成框架：利用自回歸Transformer解碼器，將歌詞和描述性文本編碼為條件輸入，運用交叉注意力機制引導音頻標記生成。
音頻標記化：采用X-Codec將音頻信號轉換為離散的音頻標記，支持在多代碼序列中進行高效生成。
混合模式與模式：
- 混合模式：直接生成混合音頻標記，并引入輔助人聲音頻標記預測目標（Mixed Pro），提升人聲清晰度。
- 模式：在平行或交錯的模式下分別生成聲道標記，確保人聲與伴奏在幀級別上的精準對齊，從而提高生成質量。
條件輸入編碼：
- 歌詞編碼：使用VoiceBPE分詞器將歌詞轉化為音素級標記，配合小型Transformer編碼器提取關鍵發音信息。
- 聲音編碼：MERT模型用于提取參考音頻的音色特征，支持聲音克隆的實現。
- 文本描述編碼：FLAN-T5模型將描述性文本編碼為特征向量，從而提供音樂風格、情感等方面的控制。
訓練策略：
- 多階段訓練：包括模態對齊、無參考音頻支持和高質量微調，逐步提升模型的性能。
- 課程學習：逐步調整代碼本損失權重，以優化模型對音頻細節的學習能力。
- 數據預處理：開發自動化數據預處理管道，從多種數據源收集音頻，分離人聲與伴奏，生成高質量的歌詞和描述性文本數據集。