MOSS-TTSD – 清華實(shí)驗(yàn)室開源的口語(yǔ)對(duì)話語(yǔ)音生成模型
MOSS-TTSD 是一款由清華大學(xué)語(yǔ)音與語(yǔ)言實(shí)驗(yàn)室(Tencent AI Lab)傾力打造的開源口語(yǔ)對(duì)話語(yǔ)音生成模型。它能夠?qū)⑽谋緦?duì)話腳本轉(zhuǎn)化為生動(dòng)、流暢的對(duì)話語(yǔ)音,并支持中英文雙語(yǔ)生成。該模型基于先進(jìn)的語(yǔ)義-音學(xué)神經(jīng)網(wǎng)絡(luò)音頻編解碼器和大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,結(jié)合了超過(guò)百萬(wàn)小時(shí)的單人語(yǔ)音數(shù)據(jù)和數(shù)十萬(wàn)小時(shí)的對(duì)話語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)支持零樣本語(yǔ)音克隆。
MOSS-TTSD:讓文本對(duì)話“開口說(shuō)話”
MOSS-TTSD 是一款革新性的文本轉(zhuǎn)語(yǔ)音(TTS)模型,專為口語(yǔ)對(duì)話設(shè)計(jì)。它不僅能夠?qū)嫖谋巨D(zhuǎn)化為自然流暢的語(yǔ)音,更賦予了語(yǔ)音對(duì)話應(yīng)有的表現(xiàn)力和情感色彩。這款模型由清華大學(xué)語(yǔ)音與語(yǔ)言實(shí)驗(yàn)室(Tencent AI Lab)研發(fā),是一款完全開源的解決方案,能夠滿足多種應(yīng)用場(chǎng)景的需求。
核心功能一覽
- 生動(dòng)對(duì)話語(yǔ)音生成:MOSS-TTSD 能夠?qū)⑽谋緦?duì)話腳本轉(zhuǎn)化為高度自然的語(yǔ)音,準(zhǔn)確捕捉對(duì)話中的節(jié)奏、語(yǔ)調(diào)和情感,讓生成的語(yǔ)音更具吸引力。
- 零樣本音色克隆:無(wú)需額外的語(yǔ)音樣本,即可實(shí)現(xiàn)說(shuō)話人音色的精準(zhǔn)克隆。這意味著,只需提供文本,MOSS-TTSD 就能模擬不同說(shuō)話者的聲音,完美還原對(duì)話場(chǎng)景。
- 雙語(yǔ)支持:支持中文和英文兩種語(yǔ)言,滿足全球用戶的需求。
- 超長(zhǎng)語(yǔ)音生成:基于先進(jìn)的低比特率編解碼器,MOSS-TTSD 能夠一次性生成長(zhǎng)達(dá)數(shù)百秒的語(yǔ)音,避免了傳統(tǒng)TTS模型中常見的拼接痕跡,使語(yǔ)音更加連貫自然。
- 開源且商用友好:模型權(quán)重、推理代碼和 API 接口均已開源,用戶可以免費(fèi)進(jìn)行商業(yè)使用。
技術(shù)探秘
MOSS-TTSD 的強(qiáng)大功能源于其精巧的技術(shù)架構(gòu):
- 基礎(chǔ)架構(gòu):該模型基于 Qwen3-1.7B-base 模型進(jìn)行微調(diào),并采用離散化語(yǔ)音序列建模方法。
- 語(yǔ)音離散化與編碼器創(chuàng)新:核心在于 XY-Tokenizer,它通過(guò)雙階段多任務(wù)學(xué)習(xí),實(shí)現(xiàn)了對(duì)語(yǔ)音信號(hào)的有效編碼,在保證信息量的同時(shí),降低了比特率。
- 數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練:MOSS-TTSD 采用了海量的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,包括百萬(wàn)小時(shí)的單人語(yǔ)音和數(shù)十萬(wàn)小時(shí)的對(duì)話語(yǔ)音,從而保證了模型生成語(yǔ)音的質(zhì)量和表現(xiàn)力。
- 長(zhǎng)語(yǔ)音生成能力:得益于超低比特率的 Codec,MOSS-TTSD 能夠生成長(zhǎng)達(dá) 960 秒的音頻,避免了拼接帶來(lái)的不自然感。
產(chǎn)品官網(wǎng)與資源
- 項(xiàng)目官網(wǎng):https://www.open-moss.com/en/moss-ttsd/
- Github 倉(cāng)庫(kù):https://github.com/OpenMOSS/MOSS-TTSD
- HuggingFace 模型庫(kù):https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- 在線體驗(yàn) Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD
應(yīng)用場(chǎng)景
MOSS-TTSD 具有廣泛的應(yīng)用前景,以下是幾個(gè)典型的應(yīng)用場(chǎng)景:
- AI 播客制作:為 AI 播客生成自然流暢的對(duì)話語(yǔ)音,打造引人入勝的播客內(nèi)容。
- 影視配音:為影視作品中的對(duì)話配音,支持中英雙語(yǔ),并實(shí)現(xiàn)零樣本音色克隆,大大提高配音效率和靈活性。
- 長(zhǎng)篇訪談:生成超長(zhǎng)語(yǔ)音,避免拼接問(wèn)題,適用于訪談、演講等場(chǎng)景。
- 新聞報(bào)道:生成自然的對(duì)話式語(yǔ)音,提升新聞報(bào)道的吸引力。
- 電商直播:為數(shù)字人對(duì)話帶貨等電商直播場(chǎng)景提供對(duì)話語(yǔ)音支持,增加直播的互動(dòng)性和吸引力。
常見問(wèn)題解答
(待補(bǔ)充)