僅聽3秒，AI零樣本克隆人聲達到人類水平，情緒語調隨意改

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：僅聽3秒，AI零樣本克隆人聲達到人類水平，情緒語調隨意改
關鍵字：語音,屬性,模型,分解,韻律
文章來源：量子位
內容字數：6768字

內容摘要：

量子位 | 公眾號 QbitAI零樣本、僅聽3秒提示音頻，即可1:1復刻人聲。還能給生聲帶入情緒，比如“悲傷”的情緒：“惡心”的情緒：這就是微軟與中國科技大學、香港中文大學（深圳）和浙江大學等機構合作，推出的NaturalSpeech 3系統。
該系統采用了創新的屬性分解擴散模型和屬性分解語音神經編解碼器FACodec，從“表示”和“建模”兩個維度對語音數據進行深入研究。通過數據/模型的規模化方法，在多說話人數據集LibriSpeech上首次實現了零樣本的人類水平語音合成。
指定特征實現個性化輸出文本到語音合成（TTS）技術作為生成式人工智能的關鍵分支，在大型語言模型（LLM）的推動下近年來迎來了突飛猛進的發展。特別是隨著語音合成技術的進步，它為大模型帶來了聲音交互的新維度，受到了業界的高度重視。在這一領域內，微軟一直是技術研究與產品開發的積極參與者，旨在創造出高度自然的人類語音。為此，微軟啟動了NaturalSpeech研究項目(https://speechresearch.github.io/)。
該項目為實現其目標，制定了分階段的實施路線圖：
首先，項目聚焦于在單個說話人語音

原文鏈接：僅聽3秒，AI零樣本克隆人聲達到人類水平，情緒語調隨意改