AIGC動態歡迎閱讀
原標題:語音生成的「智能涌現」:10萬小時數據訓練,亞馬遜祭出10億參數BASE TTS
關鍵字:語音,報告,解碼器,研究者,模型
文章來源:機器之心
內容字數:8472字
內容摘要:
機器之心報道
編輯:蛋醬伴隨著生成式深度學習模型的飛速發展,自然語言處理(NLP)和計算機視覺(CV)已經經歷了根本性的轉變,從有監督訓練的專門模型,轉變為只需有限的明確指令就能完成各種任務的通用模型。
在語音處理和文本到語音(TTS)領域,這樣的轉變也正在發生,模型能夠利用數千小時的數據,使合成結果越來越接近類人語音。
在最近的一項研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數規模提升到了前所未有的 10 億級別。論文標題:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
論文鏈接:https://arxiv.org/pdf/2402.08093.pdf
BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統,在約 10 萬小時的公共領域語音數據上進行了訓練,比此前的訓練數據量最高者 VALL-E 翻了一番。受 LLM 成功經驗的啟發,BASE TTS 將 TTS 視為下一個 token 預測的問題。這種方法通
原文鏈接:語音生成的「智能涌現」:10萬小時數據訓練,亞馬遜祭出10億參數BASE TTS
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...