微軟NaturalSpeech語音合成推出第三代，網(wǎng)友驚呼：超自然！實至名歸

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：微軟NaturalSpeech語音合成推出第三代，網(wǎng)友驚呼：超自然！實至名歸
關(guān)鍵字：語音,模型,解讀,屬性,分解
文章來源：機器之心
內(nèi)容字數(shù)：6114字

內(nèi)容摘要：

機器之心專欄
機器之心編輯部SOTA 語音合成效果。
文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發(fā)展。在大模型（LLM）時代下，語音合成技術(shù)能夠擴展大模型的語音交互能力，更是受到了廣泛的關(guān)注。多年來，微軟持續(xù)關(guān)注語音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā)，為了合成高質(zhì)量自然的人類語音，NaturalSpeech 研究項目（https://aka.ms/speechresearch）應運而生。
為了實現(xiàn)這個宏偉遠景，NaturalSpeech 項目將目標拆分成幾個階段：
1）第一階段，在單個說話人上取得媲美人類的語音質(zhì)量。為此，研究團隊在 2022 年推出了 NaturalSpeech 1，在 LJSpeech 語音合成數(shù)據(jù)集上達到了人類錄音水平的音質(zhì)。
2）第二階段，高效地實現(xiàn)像人類一樣多樣化的語音合成，包含不同的說話人、韻律、情感、風格等。為此，研究團隊在 2023 年推出了 NaturalSpeech 2，利用擴散模型（Diffusion Model）實現(xiàn)了零樣本（Zero-Shot）的語音合

原文鏈接：微軟NaturalSpeech語音合成推出第三代，網(wǎng)友驚呼：超自然！實至名歸