AIGC動態歡迎閱讀
原標題:首個支持普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
關鍵字:方言,模型,普通話,語音,策略
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com自 2024 年 GPT-4o 出現以來,業內各公司紛紛投入巨大的資源進行 TTS 大模型的研發。近幾個月內,中文語音合成大模型如雨后春筍般涌現,如 chattts、seedtts、cosyvoice 等。
雖然當前語音合成大模型在中文普通話上的效果已與真人幾乎無異,但面對中國紛繁復雜的方言,TTS 大模型卻鮮有涉獵,訓練一個統一的中文各方言語音合成大模型是一項極具挑戰的任務。
行業痛點與技術瓶頸
當前,語音合成大模型技術在普通話領域已經取得了顯著進展,但在方言領域的發展卻十分緩慢。中國擁有數十種主要方言,每一種方言都有獨特的語音特征和語法結構,這使得訓練一個覆蓋各種方言的 TTS 大模型變得異常復雜。
現有的 TTS 大模型大多專注于普通話,無法滿足多樣化的
原文鏈接:首個支持普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...