MOSS-TTSD – 清華實驗室開源的口語對話語音生成模型
MOSS-TTSD 是一款由清華大學語音與語言實驗室(Tencent AI Lab)傾力打造的開源口語對話語音生成模型。它能夠將文本對話腳本轉化為生動、流暢的對話語音,并支持中英文雙語生成。該模型基于先進的語義-音學神經網絡音頻編解碼器和大規模預訓練語言模型,結合了超過百萬小時的單人語音數據和數十萬小時的對話語音數據進行訓練,同時支持零樣本語音克隆。
MOSS-TTSD:讓文本對話“開口說話”
MOSS-TTSD 是一款革新性的文本轉語音(TTS)模型,專為口語對話設計。它不僅能夠將書面文本轉化為自然流暢的語音,更賦予了語音對話應有的表現力和情感色彩。這款模型由清華大學語音與語言實驗室(Tencent AI Lab)研發,是一款完全開源的解決方案,能夠滿足多種應用場景的需求。
核心功能一覽
- 生動對話語音生成:MOSS-TTSD 能夠將文本對話腳本轉化為高度自然的語音,準確捕捉對話中的節奏、語調和情感,讓生成的語音更具吸引力。
- 零樣本音色克隆:無需額外的語音樣本,即可實現說話人音色的精準克隆。這意味著,只需提供文本,MOSS-TTSD 就能模擬不同說話者的聲音,完美還原對話場景。
- 雙語支持:支持中文和英文兩種語言,滿足全球用戶的需求。
- 超長語音生成:基于先進的低比特率編解碼器,MOSS-TTSD 能夠一次性生成長達數百秒的語音,避免了傳統TTS模型中常見的拼接痕跡,使語音更加連貫自然。
- 開源且商用友好:模型權重、推理代碼和 API 接口均已開源,用戶可以免費進行商業使用。
技術探秘
MOSS-TTSD 的強大功能源于其精巧的技術架構:
- 基礎架構:該模型基于 Qwen3-1.7B-base 模型進行微調,并采用離散化語音序列建模方法。
- 語音離散化與編碼器創新:核心在于 XY-Tokenizer,它通過雙階段多任務學習,實現了對語音信號的有效編碼,在保證信息量的同時,降低了比特率。
- 數據驅動的訓練:MOSS-TTSD 采用了海量的語音數據進行訓練,包括百萬小時的單人語音和數十萬小時的對話語音,從而保證了模型生成語音的質量和表現力。
- 長語音生成能力:得益于超低比特率的 Codec,MOSS-TTSD 能夠生成長達 960 秒的音頻,避免了拼接帶來的不自然感。
產品官網與資源
- 項目官網:https://www.open-moss.com/en/moss-ttsd/
- Github 倉庫:https://github.com/OpenMOSS/MOSS-TTSD
- HuggingFace 模型庫:https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- 在線體驗 Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD
應用場景
MOSS-TTSD 具有廣泛的應用前景,以下是幾個典型的應用場景:
- AI 播客制作:為 AI 播客生成自然流暢的對話語音,打造引人入勝的播客內容。
- 影視配音:為影視作品中的對話配音,支持中英雙語,并實現零樣本音色克隆,大大提高配音效率和靈活性。
- 長篇訪談:生成超長語音,避免拼接問題,適用于訪談、演講等場景。
- 新聞報道:生成自然的對話式語音,提升新聞報道的吸引力。
- 電商直播:為數字人對話帶貨等電商直播場景提供對話語音支持,增加直播的互動性和吸引力。
常見問題解答
(待補充)
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...