AIGC動態歡迎閱讀
原標題:擊敗擴散模型,清華朱軍團隊基于薛定諤橋的新語音合成系統來了
關鍵字:模型,方法,華為,知乎,噪聲
文章來源:機器之心
內容字數:9252字
內容摘要:
機器之心專欄
機器之心編輯部近日,由清華大學計算機系朱軍教授課題組發布的基于薛定諤橋的語音合成系統 [1],憑借其 「數據到數據」的生成范式,在樣本質量和采樣速度兩方面,均擊敗了擴散模型的 「噪聲到數據」范式。論文鏈接:https://arxiv.org/abs/2312.03491
項目網站:https://bridge-tts.github.io/
代碼實現:https://github.com/thu-ml/Bridge-TTS
問題背景
自 2021 年起,擴散模型(diffusion models)開始成為文本到語音合成(text-to-speech, TTS)領域的核心生成方法之一,如華為諾亞方舟實驗室提出的 Grad-TTS [2]、浙江大學提出的 DiffSinger [3] 等方法均實現了較高的生成質量。此后,又有眾多研究工作有效提升了擴散模型的采樣速度,如通過先驗優化 [2,3,4]、模型蒸餾 [5,6]、殘差預測 [7] 等方法。然而,如此項研究所示,由于擴散模型受限于「噪聲到數據」的生成范式,其先驗分布對生成目標提供的信息始終較為有限,對條件信息無法利用充分。本
原文鏈接:擊敗擴散模型,清華朱軍團隊基于薛定諤橋的新語音合成系統來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...