國產(chǎn)最強語音大模型誕生,MaskGCT宣布開源,聲音效果媲美人類
AIGC動態(tài)歡迎閱讀
原標題:國產(chǎn)最強語音大模型誕生,MaskGCT宣布開源,聲音效果媲美人類
關(guān)鍵字:語義,語音,模型,標記,聲學
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com近期,港中大(深圳)聯(lián)手趣丸科技聯(lián)合推出了新一代大規(guī)模聲音克隆 TTS 模型 ——MaskGCT。該模型在包含 10 萬小時多語言數(shù)據(jù)的 Emilia 數(shù)據(jù)集上進行訓練,展現(xiàn)出超自然的語音克隆、風格遷移以及跨語言生成能力,同時保持了較強的穩(wěn)定性。MaskGCT 已在香港中文大學(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng) Amphion 發(fā)布。論文鏈接:https://arxiv.org/abs/2409.00750
樣例展示:https://maskgct.github.io
模型下載:https://huggingface.co/amphion/maskgct
Demo 展示:https://huggingface.co/spaces/amphion/m
原文鏈接:國產(chǎn)最強語音大模型誕生,MaskGCT宣布開源,聲音效果媲美人類
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: