字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯
關(guān)鍵字:語(yǔ)音,模型,字節(jié)跳動(dòng),說(shuō)話,團(tuán)隊(duì)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda通過(guò)高保真合成語(yǔ)音與真人語(yǔ)音無(wú)異。
首先來(lái)聽(tīng)一段《凡人修仙傳》:你猜的沒(méi)錯(cuò),這段有聲書(shū)并非來(lái)自某個(gè)專業(yè)制作團(tuán)隊(duì),而是一個(gè) AI 模型 Seed-TTS,而這個(gè)模型則是來(lái)自字節(jié)跳動(dòng)的 Seed Team。
TTS 是指文本轉(zhuǎn)語(yǔ)音,這是一種具備諸多妙用的技術(shù),像是讓個(gè)人智能助理說(shuō)話、為視頻或游戲配音、輔助視障人士、制作有聲書(shū)等等。對(duì)于 TTS 技術(shù)研發(fā)者來(lái)說(shuō),流暢自然的表達(dá)一直以來(lái)都是值得追求的重要目標(biāo)。
字節(jié)跳動(dòng) Seed Team 發(fā)布的 Seed-TTS 不只是一個(gè)模型,而是一整個(gè)模型系列。論文標(biāo)題:Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
論文地址:https://arxiv.org/pdf/2406.02430
演示網(wǎng)站:https://bytedancespeech.github.io/seedtts_tech_report/
據(jù)介紹,該系列模型有能力合成自然度和表現(xiàn)力達(dá)到人類水平的語(yǔ)音。不僅如此,Seed-TTS 還能以零樣本方式基于一段較短的錄入語(yǔ)
原文鏈接:字節(jié)打造大模型TTS:不僅能高保真合成,而且支持調(diào)整編輯
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)