IndexTTS – B 站推出的文本轉(zhuǎn)語音模型,支持拼音糾正漢字發(fā)音
IndexTTS 是 B 站推出的一款先進(jìn)的可控文本轉(zhuǎn)語音(TTS)系統(tǒng),基于 XTTS 和 Tortoise 模型開發(fā),結(jié)合了 GPT 風(fēng)格的生成技術(shù)。它能夠高效地將文本轉(zhuǎn)換為自然流暢的語音,特別擅長處理中文文本。IndexTTS 支持拼音糾正漢字發(fā)音,并利用標(biāo)點(diǎn)符號(hào)精準(zhǔn)控制停頓,有效解決了多音字和長尾字符的發(fā)音難題。其字詞錯(cuò)誤率(WER)低至 1.3%,揚(yáng)聲器相似性(SS)達(dá)到 0.776,主觀音質(zhì)評(píng)分(MOS)為 4.01,展現(xiàn)出優(yōu)異的表現(xiàn)。
IndexTTS是什么
IndexTTS 是 B 站推出的一款工業(yè)級(jí)的可控文本轉(zhuǎn)語音(TTS)系統(tǒng)。該系統(tǒng)采用 XTTS 和 Tortoise 模型為基礎(chǔ),結(jié)合 GPT 風(fēng)格的生成技術(shù),能夠?qū)⑽谋靖咝мD(zhuǎn)換為自然且流暢的語音。IndexTTS 在處理中文文本時(shí)表現(xiàn)出色,支持通過拼音糾正漢字的發(fā)音,并通過標(biāo)點(diǎn)符號(hào)在任意位置精準(zhǔn)控制停頓,從而有效解決多音字和長尾字符的發(fā)音問題。它采用混合建模方法,將漢字與拼音相結(jié)合,以優(yōu)化語音生成效果。目前,IndexTTS 的字詞錯(cuò)誤率(WER)僅為 1.3%,揚(yáng)聲器相似性(SS)達(dá)到 0.776,主觀音質(zhì)評(píng)分(MOS)為 4.01,表現(xiàn)非常出色。系統(tǒng)使用了大量數(shù)據(jù)進(jìn)行訓(xùn)練,包括 2.5 萬小時(shí)的中文音頻和 9000 小時(shí)的英文音頻,以確保音質(zhì)和音色的高質(zhì)量。
IndexTTS的主要功能
- 拼音糾正與停頓控制:在處理中文文本時(shí),IndexTTS 能夠通過拼音糾正漢字的發(fā)音,并利用標(biāo)點(diǎn)符號(hào)在任意位置精準(zhǔn)控制停頓,使得語音輸出更加自然流暢。
- 音質(zhì)優(yōu)化:引入基于 Conformer 的條件編碼器和 BigVGAN2 語音解碼器,顯著提升了音質(zhì)與音色相似性,MOS 評(píng)分達(dá)到 4.01。
- 多語言支持:目前支持中文和英文,未來計(jì)劃擴(kuò)展到更多語言。
IndexTTS的技術(shù)原理
- 混合建模方法:在中文場景下,IndexTTS 采用字符與拼音的混合建模方式,結(jié)合漢字和拼音,快速糾正多音字和長尾字符的發(fā)音錯(cuò)誤,提高語音合成的準(zhǔn)確性與可控性。
- 語音編碼與解碼優(yōu)化:IndexTTS 采用基于 Conformer 的條件編碼器與 BigVGAN2 語音解碼器。Conformer 編碼器能夠更好地捕捉語音的音色特征,而 BigVGAN2 解碼器則顯著提升音質(zhì)和音色的相似性。
- 零樣本語音克隆:IndexTTS 在零樣本語音克隆方面表現(xiàn)突出,能夠在沒有目標(biāo)語音樣本的情況下生成高質(zhì)量語音。揚(yáng)聲器相似性(SS)高達(dá) 0.776,MOS 評(píng)分達(dá)到 4.01,遠(yuǎn)超現(xiàn)有系統(tǒng)。
- 高效的訓(xùn)練與推理:經(jīng)過數(shù)萬小時(shí)的數(shù)據(jù)訓(xùn)練,IndexTTS 的訓(xùn)練過程簡單且穩(wěn)定,推理速度快。與 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等系統(tǒng)相比,IndexTTS 在自然度、內(nèi)容一致性和零樣本語音克隆方面均表現(xiàn)出色。
IndexTTS的項(xiàng)目地址
- Github倉庫:https://github.com/index-tts/index-tts
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.05512
IndexTTS的應(yīng)用場景
- 內(nèi)容創(chuàng)作與視頻配音:IndexTTS 可以快速生成自然流暢的語音內(nèi)容,幫助視頻創(chuàng)作者節(jié)省錄音時(shí)間,迅速完成視頻配音。
- 有聲讀物與在線教育:支持中文和英文的高質(zhì)量語音合成,能夠?yàn)橛新曌x物和在線教育平臺(tái)提供自然的語音朗讀服務(wù),提升用戶體驗(yàn)。
- 智能客服與語音助手:憑借零樣本語音克隆能力和高自然度表現(xiàn),IndexTTS 適合用于智能客服和語音助手場景,能夠迅速適應(yīng)不同的語音風(fēng)格與語速。
- 多媒體與娛樂:在多媒體與娛樂領(lǐng)域,IndexTTS 可用于生成個(gè)性化語音內(nèi)容,如游戲配音和虛擬角色對(duì)話,為用戶帶來更具沉浸感的體驗(yàn)。
- 無障礙輔助技術(shù):憑借高效的語音合成能力和低錯(cuò)誤率,IndexTTS 可以為視障人士提供語音輔助功能,幫助他們更好地獲取信息。