15 秒音頻即可“復制”原聲！但OpenAI 擔心新語音模型被濫用而限制發(fā)行

AIGC動態(tài)2年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標題：15 秒音頻即可“復制”原聲！但OpenAI 擔心新語音模型被濫用而限制發(fā)行
關(guān)鍵字：政策,報告,小米,音頻,模型
文章來源：AI前線
內(nèi)容字數(shù)：5234字

內(nèi)容摘要：

整理 | 傅宇琪
3 月 30 日，OpenAI 在官網(wǎng)首次展示了名為“ Voice Engine ”的語音生成模型，該模型能夠通過文本輸入和僅僅 15 秒的音頻樣本生成與原始說話者聲音高度相似、充滿情感且逼真的自然語言語音。據(jù)悉，OpenAI 于 2022 年末首次開發(fā)出 Voice Engine，并已將其應用于其文本轉(zhuǎn)語音 API 以及 ChatGPT 語音和朗讀功能中的預設(shè)語音。
這項技術(shù)的問世，顯然將對那些經(jīng)常錄制自己語音的人產(chǎn)生重大影響，包括播客、配音藝術(shù)家、口語表演者、有聲書和廣告解說員、游戲玩家、流媒體主播、客戶服務代理、銷售人員等眾多職業(yè)。
不過目前，這項技術(shù)僅在小范圍內(nèi)提供，擁有訪問權(quán)限的公司包括：教育技術(shù)公司 Age of Learning、視覺敘事平臺 HeyGen、一線健康軟件制造商 Dimagi、AI 通信應用程序創(chuàng)建者 Livox 和衛(wèi)生系統(tǒng) Lifespan。OpenAI 在其博客文章中表示：“這些小規(guī)模部署有助于為我們的方法、保障措施提供信息，并思考語音引擎如何在各個行業(yè)中發(fā)揮作用。”
官網(wǎng)文章中，OpenAI 也展示了 Voice Engine 的使用

原文鏈接：15 秒音頻即可“復制”原聲！但OpenAI 擔心新語音模型被濫用而限制發(fā)行