語音生成的「智能涌現(xiàn)」:10萬小時數(shù)據(jù)訓(xùn)練,亞馬遜祭出10億參數(shù)BASE TTS
AIGC動態(tài)歡迎閱讀
原標(biāo)題:語音生成的「智能涌現(xiàn)」:10萬小時數(shù)據(jù)訓(xùn)練,亞馬遜祭出10億參數(shù)BASE TTS
關(guān)鍵字:語音,報告,解碼器,研究者,模型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8472字
內(nèi)容摘要:
機(jī)器之心報道
編輯:蛋醬伴隨著生成式深度學(xué)習(xí)模型的飛速發(fā)展,自然語言處理(NLP)和計算機(jī)視覺(CV)已經(jīng)經(jīng)歷了根本性的轉(zhuǎn)變,從有監(jiān)督訓(xùn)練的專門模型,轉(zhuǎn)變?yōu)橹恍栌邢薜拿鞔_指令就能完成各種任務(wù)的通用模型。
在語音處理和文本到語音(TTS)領(lǐng)域,這樣的轉(zhuǎn)變也正在發(fā)生,模型能夠利用數(shù)千小時的數(shù)據(jù),使合成結(jié)果越來越接近類人語音。
在最近的一項研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數(shù)規(guī)模提升到了前所未有的 10 億級別。論文標(biāo)題:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
論文鏈接:https://arxiv.org/pdf/2402.08093.pdf
BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統(tǒng),在約 10 萬小時的公共領(lǐng)域語音數(shù)據(jù)上進(jìn)行了訓(xùn)練,比此前的訓(xùn)練數(shù)據(jù)量最高者 VALL-E 翻了一番。受 LLM 成功經(jīng)驗的啟發(fā),BASE TTS 將 TTS 視為下一個 token 預(yù)測的問題。這種方法通
原文鏈接:語音生成的「智能涌現(xiàn)」:10萬小時數(shù)據(jù)訓(xùn)練,亞馬遜祭出10億參數(shù)BASE TTS
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
相關(guān)文章
