今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風(fēng)格均可控!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風(fēng)格均可控!
關(guān)鍵字:模型,數(shù)據(jù),提示,自然語(yǔ)言,歌聲
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9225字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Tscom本項(xiàng)目測(cè)試參考歌聲,歌詞“風(fēng)吹來(lái)的砂冥冥在哭泣,難道早就預(yù)言了分離”:
提示詞“I want to listen to a song with a man voice.”生成的歌聲:
提示詞“I’m in the mood for a song performed by a madam artist.”生成的歌聲:
引言:自然語(yǔ)言指令在歌聲合成中的新突破在數(shù)字音頻技術(shù)的發(fā)展歷程中,歌聲合成(Singing Voice Synthesis, SVS)一直是一個(gè)充滿挑戰(zhàn)的領(lǐng)域。隨著深度學(xué)習(xí)的興起,SVS系統(tǒng)已經(jīng)能夠生成高保真度的歌聲,為音樂創(chuàng)作和娛樂產(chǎn)業(yè)的發(fā)展提供了新的動(dòng)力。然而,盡管現(xiàn)有的SVS方法在音頻質(zhì)量和自然度上取得了顯著進(jìn)步,它們通常缺乏對(duì)合成歌聲風(fēng)格屬性的明確控制能力。這些風(fēng)格屬性包括說(shuō)話者音色、聲音范圍和能量等。為了解決這一問題,研究者們開始探索使用自然語(yǔ)言指令作為風(fēng)格提示,以期實(shí)現(xiàn)對(duì)合成歌聲的精確控制。
自然語(yǔ)言指令的使用不僅可以實(shí)現(xiàn)對(duì)特定屬性的精確控制,還可以簡(jiǎn)化用戶交互,為非計(jì)算機(jī)專業(yè)用戶如音樂家和視頻創(chuàng)作者帶來(lái)便利。然而,將自然語(yǔ)
原文鏈接:今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風(fēng)格均可控!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189