Muyan-TTS – 開源文本轉語音模型,零樣本語音合成
Muyan-TTS 是一款專為播客環境打造的開源文本轉語音(TTS)模型,經過超過10萬小時的播客音頻數據預訓練,能夠實現零樣本語音合成,無需大量目標說話人的語音數據即可生成高質量的語音。該模型支持個性化語音定制及說話人適配,合成速度快,適合于實時應用場景。
Muyan-TTS是什么
Muyan-TTS 是一款為播客場景特別設計的開源文本轉語音模型。該模型經過超過10萬小時的播客音頻數據預訓練,具備零樣本語音合成的能力,讓用戶無需依賴大量目標說話人的語音數據即可生成高質量的語音輸出。Muyan-TTS 的合成速度極快,能夠在0.33秒內生成1秒的音頻,非常適合實時應用。此外,Muyan-TTS 能夠自然流暢地合成長篇內容,如播客和有聲書,支持本地部署及API使用,便于集成到各種應用中。
Muyan-TTS的主要功能
- 零樣本語音合成:無須大量目標說話人數據,僅需少量參考語音和文本即可生成出色的語音。
- 說話人適配:通過少量目標說話人的語音數據進行微調,達到個性化語音定制效果。
- 快速生成:僅需0.33秒即可生成1秒音頻,適合實時與批量生成長語音內容。
- 連貫長內容合成:支持自然流暢地合成長篇內容,如播客與有聲書等。
- 離線部署友好:支持本地推理,確保數據隱私并降低延遲。
Muyan-TTS的技術原理
- 框架設計:基于 GPT-SoVITS 框架,使用預訓練的 Llama-3.2-3B 作為語言模型,并結合 SoVITS 模型進行音頻解碼。語言模型負責將文本與音頻 token 對齊,生成中間表示,然后 SoVITS 模型將其解碼為音頻波形。
- 數據處理:數據集包含超過10萬小時的播客音頻,經過多階段處理,包括數據收集、清洗和格式化,確保高質量與多樣性。采用自動語音識別(ASR)模型將音頻轉錄為文本,并將音頻嵌入量化為離散 token,形成平行語料庫。
- 預訓練與微調:語言模型在平行語料庫上進行預訓練,以學習文本與音頻 token 之間的關系。同時,通過監督微調(SFT)進一步利用少量目標說話人的語音數據來優化模型,提高語音合成的自然度和相似度。
- 解碼器優化:基于 VITS 基礎模型的解碼器,減少幻覺問題,提高語音生成的穩定性與自然度。解碼器在高質量音頻數據上進行微調,以進一步提升合成語音的保真度和表現力。
- 推理加速:高效的內存管理和并行推理技術,提高推理速度并降低延遲。支持 API 模式,自動啟用加速功能,適合實時應用。
Muyan-TTS的項目地址
- GitHub倉庫:https://github.com/MYZY-AI/Muyan-TTS
- HuggingFace模型庫:https://huggingface.co/MYZY-AI/Muyan-TTS
- arXiv技術論文:https://arxiv.org/pdf/2504.19146
Muyan-TTS的應用場景
- 播客與有聲書:生成長篇內容,保持自然流暢,節省錄制時間。
- 視頻配音:快速合成英文腳本配音,適應不同角色。
- AI 角色與語音助手:生成個性化角色語音,提供自然的交互體驗。
- 新聞播報:高效將文本轉為語音,適合智能設備的播報需求。
- 教育與游戲:生成教學音與游戲旁白,提升學習與娛樂的體驗。
常見問題
- Muyan-TTS 是否支持多語言?:目前主要支持英語,但未來計劃擴展至更多語言。
- 如何進行個性化語音定制?:用戶可通過提供少量目標說話人的語音樣本進行微調。
- 該模型的運行環境要求是什么?:Muyan-TTS 支持在本地設備上運行,推薦使用具備較高計算能力的機器。
- 是否提供技術支持?:項目團隊通過 GitHub 和相關社區提供技術支持。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...