僅聽3秒,AI零樣本克隆人聲達(dá)到人類水平,情緒語調(diào)隨意改
AIGC動態(tài)歡迎閱讀
原標(biāo)題:僅聽3秒,AI零樣本克隆人聲達(dá)到人類水平,情緒語調(diào)隨意改
關(guān)鍵字:語音,屬性,模型,分解,韻律
文章來源:量子位
內(nèi)容字?jǐn)?shù):6768字
內(nèi)容摘要:
量子位 | 公眾號 QbitAI零樣本、僅聽3秒提示音頻,即可1:1復(fù)刻人聲。還能給生聲帶入情緒,比如“悲傷”的情緒:“惡心”的情緒:這就是微軟與中國科技大學(xué)、香港中文大學(xué)(深圳)和浙江大學(xué)等機(jī)構(gòu)合作,推出的NaturalSpeech 3系統(tǒng)。
該系統(tǒng)采用了創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解語音神經(jīng)編解碼器FACodec,從“表示”和“建模”兩個維度對語音數(shù)據(jù)進(jìn)行深入研究。通過數(shù)據(jù)/模型的規(guī)模化方法,在多說話人數(shù)據(jù)集LibriSpeech上首次實現(xiàn)了零樣本的人類水平語音合成。
指定特征實現(xiàn)個性化輸出文本到語音合成(TTS)技術(shù)作為生成式人工智能的關(guān)鍵分支,在大型語言模型(LLM)的推動下近年來迎來了突飛猛進(jìn)的發(fā)展。特別是隨著語音合成技術(shù)的進(jìn)步,它為大模型帶來了聲音交互的新維度,受到了業(yè)界的高度重視。在這一領(lǐng)域內(nèi),微軟一直是技術(shù)研究與產(chǎn)品開發(fā)的積極參與者,旨在創(chuàng)造出高度自然的人類語音。為此,微軟啟動了NaturalSpeech研究項目(https://speechresearch.github.io/)。
該項目為實現(xiàn)其目標(biāo),制定了分階段的實施路線圖:
首先,項目聚焦于在單個說話人語音
原文鏈接:僅聽3秒,AI零樣本克隆人聲達(dá)到人類水平,情緒語調(diào)隨意改
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破