VALL-E一種用于文本到語音合成 (TTS) 的語言建模方法。具體來說,我們使用從現成的神經音頻編解碼器模型派生的離散代碼來訓練神經編解碼器語言模型(稱為 VALL-E),并將 TTS 視為條件語言建模任務,而不是像以前的工作那樣連續信號回歸。在預訓練階段,我們將 TTS 訓練數據擴展到 60K 小時的英語語音,這是現有系統的數百倍。VALL-E 出現了上下文學習能力,可用于合成高質量的個性化語音,只需錄制 3 秒的未見過的說話者的注冊錄音作為聲音提示。實驗結果表明,VALL-E 在語音自然度和說話人相似度方面明顯優于最先進的零樣本 TTS 系統。此外,我們發現 VALL-E 可以在合成中保留說話者的情緒和聲音提示的聽覺環境。

數據統計
數據評估
關于VALL-E特別聲明
本站OpenI提供的VALL-E都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 13日 下午3:50收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。
相關導航
暫無評論...