AIGC動態歡迎閱讀
原標題:微軟NaturalSpeech語音合成推出第三代,網友驚呼:超自然!實至名歸
關鍵字:語音,模型,解讀,屬性,分解
文章來源:機器之心
內容字數:6114字
內容摘要:
機器之心專欄
機器之心編輯部SOTA 語音合成效果。
文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發展。在大模型(LLM)時代下,語音合成技術能夠擴展大模型的語音交互能力,更是受到了廣泛的關注。多年來,微軟持續關注語音領域的技術研究與產品研發,為了合成高質量自然的人類語音,NaturalSpeech 研究項目(https://aka.ms/speechresearch)應運而生。
為了實現這個宏偉遠景,NaturalSpeech 項目將目標拆分成幾個階段:
1)第一階段,在單個說話人上取得媲美人類的語音質量。為此,研究團隊在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語音合成數據集上達到了人類錄音水平的音質。
2)第二階段,高效地實現像人類一樣多樣化的語音合成,包含不同的說話人、韻律、情感、風格等。為此,研究團隊在 2023 年推出了 NaturalSpeech 2,利用擴散模型(Diffusion Model)實現了零樣本(Zero-Shot)的語音合
原文鏈接:微軟NaturalSpeech語音合成推出第三代,網友驚呼:超自然!實至名歸
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...