微軟NaturalSpeech語音合成推出第三代,網(wǎng)友驚呼:超自然!實至名歸

AIGC動態(tài)歡迎閱讀
原標題:微軟NaturalSpeech語音合成推出第三代,網(wǎng)友驚呼:超自然!實至名歸
關(guān)鍵字:語音,模型,解讀,屬性,分解
文章來源:機器之心
內(nèi)容字數(shù):6114字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部SOTA 語音合成效果。
文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發(fā)展。在大模型(LLM)時代下,語音合成技術(shù)能夠擴展大模型的語音交互能力,更是受到了廣泛的關(guān)注。多年來,微軟持續(xù)關(guān)注語音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā),為了合成高質(zhì)量自然的人類語音,NaturalSpeech 研究項目(https://aka.ms/speechresearch)應運而生。
為了實現(xiàn)這個宏偉遠景,NaturalSpeech 項目將目標拆分成幾個階段:
1)第一階段,在單個說話人上取得媲美人類的語音質(zhì)量。為此,研究團隊在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語音合成數(shù)據(jù)集上達到了人類錄音水平的音質(zhì)。
2)第二階段,高效地實現(xiàn)像人類一樣多樣化的語音合成,包含不同的說話人、韻律、情感、風格等。為此,研究團隊在 2023 年推出了 NaturalSpeech 2,利用擴散模型(Diffusion Model)實現(xiàn)了零樣本(Zero-Shot)的語音合
原文鏈接:微軟NaturalSpeech語音合成推出第三代,網(wǎng)友驚呼:超自然!實至名歸
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號