OpenAI首次官宣語音項目,配音演員警報拉響
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI首次官宣語音項目,配音演員警報拉響
關(guān)鍵字:音頻,語音,聲音,美元,樣本
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):2730字
內(nèi)容摘要:
機(jī)器之心報道
編輯:陳萍文本輸入和一個 15 秒的音頻樣本就能生成與原始說話者非常相似的自然聲音。今天,OpenAI 在語音領(lǐng)域又帶給我們一點(diǎn)點(diǎn)震撼,通過文本輸入以及一段 15 秒的音頻示例,可以生成既自然又與原聲極為接近的語音。值得注意的是,即使是小模型,只需一個 15 秒的樣本,也能創(chuàng)造出富有情感且逼真的聲音。
OpenAI 將這個語音引擎命名為 Voice Engine,首次開發(fā)時間是 2022 年末,今天是 Voice Engine 預(yù)覽版的首次亮相。下面為該語音引擎的一些早期示例,例如可以幫助用戶翻譯視頻和播客等內(nèi)容,輸入一段原始音頻:
Voice Engine 可以翻譯成西班牙語:
還能翻譯成中文:
以及日語:
Voice Engine 為有語言障礙的人合成相似的聲音,使得用戶在每種口語中保持聲音一致:
輸入?yún)⒖家纛l:
生成的音頻(英語):
生成的音頻(葡萄牙語):
又比如,幫助患有突發(fā)性或退化性言語病癥的患者說話。
原始聲音:
參考聲音:
生成的音頻:
令人驚訝的是,Voice Engine 并未根據(jù)用戶數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào),而是通過一個擴(kuò)散過程和 transformer
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...