VALL-E
VALL-E一種用于文本到語(yǔ)音合成 (TTS) 的語(yǔ)言建模方法。具體來(lái)說(shuō),我們使用從現(xiàn)成的神經(jīng)音頻編解碼器模型派生的離散代碼來(lái)訓(xùn)練神經(jīng)編解碼器語(yǔ)言模型(稱(chēng)為 VALL-E),并將 TTS 視為...
標(biāo)簽:AIGC語(yǔ)音平臺(tái) AI語(yǔ)音合成 AI語(yǔ)音生成-文轉(zhuǎn)音 AI輔助編程AI文轉(zhuǎn)音 AI語(yǔ)音合成 AI語(yǔ)音模擬 AI語(yǔ)音生成-文轉(zhuǎn)音 AI輔助編程 VALL-E 語(yǔ)言建模方法VALL-E一種用于文本到語(yǔ)音合成 (TTS) 的語(yǔ)言建模方法。具體來(lái)說(shuō),我們使用從現(xiàn)成的神經(jīng)音頻編解碼器模型派生的離散代碼來(lái)訓(xùn)練神經(jīng)編解碼器語(yǔ)言模型(稱(chēng)為 VALL-E),并將 TTS 視為條件語(yǔ)言建模任務(wù),而不是像以前的工作那樣連續(xù)信號(hào)回歸。在預(yù)訓(xùn)練階段,我們將 TTS 訓(xùn)練數(shù)據(jù)擴(kuò)展到 60K 小時(shí)的英語(yǔ)語(yǔ)音,這是現(xiàn)有系統(tǒng)的數(shù)百倍。VALL-E 出現(xiàn)了上下文學(xué)習(xí)能力,可用于合成高質(zhì)量的個(gè)性化語(yǔ)音,只需錄制 3 秒的未見(jiàn)過(guò)的說(shuō)話(huà)者的注冊(cè)錄音作為聲音提示。實(shí)驗(yàn)結(jié)果表明,VALL-E 在語(yǔ)音自然度和說(shuō)話(huà)人相似度方面明顯優(yōu)于最先進(jìn)的零樣本 TTS 系統(tǒng)。此外,我們發(fā)現(xiàn) VALL-E 可以在合成中保留說(shuō)話(huà)者的情緒和聲音提示的聽(tīng)覺(jué)環(huán)境。

數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)評(píng)估
本站OpenI提供的VALL-E都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 5月 13日 下午3:50收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。
相關(guān)導(dǎo)航

AI語(yǔ)音合成官網(wǎng)入口網(wǎng)址,找AI工具,一個(gè)AIGC導(dǎo)航(生成式AI導(dǎo)航)網(wǎng)站就夠了.AIGC導(dǎo)航是一個(gè)集國(guó)內(nèi)外優(yōu)秀的AI人工智能工具導(dǎo)航網(wǎng)站,為用戶(hù)收集AI工具,文心一言,人工智能,AI寫(xiě)作工具,AI圖片生成工具,AI語(yǔ)音生成器,AI視頻工具,AI辦公,AI營(yíng)銷(xiāo)等優(yōu)秀的AI工具網(wǎng)站,歡迎AI工具創(chuàng)作者提交AI網(wǎng)址到AIGC導(dǎo)航,一起為互聯(lián)網(wǎng)用戶(hù)創(chuàng)造出更好用導(dǎo)航網(wǎng)站,助力人類(lèi)提高生產(chǎn)力,AI顛覆你的想象!