Muyan-TTS

Muyan-TTS – 開源文本轉語音模型，零樣本語音合成

Muyan-TTS

Muyan-TTS 是一款專為播客環境打造的開源文本轉語音（TTS）模型，經過超過10萬小時的播客音頻數據預訓練，能夠實現零樣本語音合成，無需大量目標說話人的語音數據即可生成高質量的語音。該模型支持個性化語音定制及說話人適配，合成速度快，適合于實時應用場景。

Muyan-TTS是什么

Muyan-TTS 是一款為播客場景特別設計的開源文本轉語音模型。該模型經過超過10萬小時的播客音頻數據預訓練，具備零樣本語音合成的能力，讓用戶無需依賴大量目標說話人的語音數據即可生成高質量的語音輸出。Muyan-TTS 的合成速度極快，能夠在0.33秒內生成1秒的音頻，非常適合實時應用。此外，Muyan-TTS 能夠自然流暢地合成長篇內容，如播客和有聲書，支持本地部署及API使用，便于集成到各種應用中。

Muyan-TTS的主要功能

零樣本語音合成：無須大量目標說話人數據，僅需少量參考語音和文本即可生成出色的語音。
說話人適配：通過少量目標說話人的語音數據進行微調，達到個性化語音定制效果。
快速生成：僅需0.33秒即可生成1秒音頻，適合實時與批量生成長語音內容。
連貫長內容合成：支持自然流暢地合成長篇內容，如播客與有聲書等。
離線部署友好：支持本地推理，確保數據隱私并降低延遲。

Muyan-TTS的技術原理

框架設計：基于 GPT-SoVITS 框架，使用預訓練的 Llama-3.2-3B 作為語言模型，并結合 SoVITS 模型進行音頻解碼。語言模型負責將文本與音頻 token 對齊，生成中間表示，然后 SoVITS 模型將其解碼為音頻波形。
數據處理：數據集包含超過10萬小時的播客音頻，經過多階段處理，包括數據收集、清洗和格式化，確保高質量與多樣性。采用自動語音識別（ASR）模型將音頻轉錄為文本，并將音頻嵌入量化為離散 token，形成平行語料庫。
預訓練與微調：語言模型在平行語料庫上進行預訓練，以學習文本與音頻 token 之間的關系。同時，通過監督微調（SFT）進一步利用少量目標說話人的語音數據來優化模型，提高語音合成的自然度和相似度。
解碼器優化：基于 VITS 基礎模型的解碼器，減少幻覺問題，提高語音生成的穩定性與自然度。解碼器在高質量音頻數據上進行微調，以進一步提升合成語音的保真度和表現力。
推理加速：高效的內存管理和并行推理技術，提高推理速度并降低延遲。支持 API 模式，自動啟用加速功能，適合實時應用。