首個(gè)支持普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首個(gè)支持普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
關(guān)鍵字:方言,模型,普通話,語音,策略
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com自 2024 年 GPT-4o 出現(xiàn)以來,業(yè)內(nèi)各公司紛紛投入巨大的資源進(jìn)行 TTS 大模型的研發(fā)。近幾個(gè)月內(nèi),中文語音合成大模型如雨后春筍般涌現(xiàn),如 chattts、seedtts、cosyvoice 等。
雖然當(dāng)前語音合成大模型在中文普通話上的效果已與真人幾乎無異,但面對(duì)中國(guó)紛繁復(fù)雜的方言,TTS 大模型卻鮮有涉獵,訓(xùn)練一個(gè)統(tǒng)一的中文各方言語音合成大模型是一項(xiàng)極具挑戰(zhàn)的任務(wù)。
行業(yè)痛點(diǎn)與技術(shù)瓶頸
當(dāng)前,語音合成大模型技術(shù)在普通話領(lǐng)域已經(jīng)取得了顯著進(jìn)展,但在方言領(lǐng)域的發(fā)展卻十分緩慢。中國(guó)擁有數(shù)十種主要方言,每一種方言都有獨(dú)特的語音特征和語法結(jié)構(gòu),這使得訓(xùn)練一個(gè)覆蓋各種方言的 TTS 大模型變得異常復(fù)雜。
現(xiàn)有的 TTS 大模型大多專注于普通話,無法滿足多樣化的
原文鏈接:首個(gè)支持普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: