內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
關(guān)鍵字:語音,數(shù)據(jù),模型,音色,教程
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):5361字
內(nèi)容摘要:
編輯:xixi,李寶珠
RVC 創(chuàng)始人開源了一款音色克隆項(xiàng)目 GPT-SoVITS,僅需提供 5 秒語音樣本,便可收獲相似度達(dá)到 80%~95% 的克隆語音。「語音」是人類接觸 AI 的「早教技術(shù)」,同時(shí)也是最早一批走出實(shí)驗(yàn)室,走進(jìn)千家萬戶的 AI 技術(shù)。最初,人們針對智能語音的研究主要集中在語音識別上,即讓機(jī)器聽懂人類語言。
最早的基于電子計(jì)算機(jī)的語音識別系統(tǒng)是由 AT&T 貝爾實(shí)驗(yàn)室開發(fā)的 Audrey,能夠識別 10 個(gè)英文數(shù)字。1988 年,李開復(fù)實(shí)現(xiàn)了第一個(gè)基于隱馬爾可夫模型的大詞匯量語音識別系統(tǒng) Sphinx。1997 年,世界上首個(gè)面向消費(fèi)者的連續(xù)語音聽寫系統(tǒng) Dragon NaturallySpeaking 正式發(fā)布。2009 年,微軟在 Windows 7 操作系統(tǒng)中集成了語音功能。
2011 年,里程碑式產(chǎn)品 iPhone 4S 發(fā)布,Siri 的誕生將智能語音從識別帶入了「交互」的新階段。同年,谷歌宣布將在其內(nèi)部測試開始 Google 搜索,并在未來的日子里將在 Google.com 上推出語音搜索。
從聽到說的躍遷,也是人機(jī)交互繁榮發(fā)展的重要奠基石。如今,從智能
原文鏈接:內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:HyperAI
作者簡介:解構(gòu)技術(shù)先進(jìn)性與普適性,解讀更前沿的 AIForScience 案例