AIGC動態歡迎閱讀
原標題:15 秒音頻即可“復制”原聲!但OpenAI 擔心新語音模型被濫用而限制發行
關鍵字:政策,報告,小米,音頻,模型
文章來源:AI前線
內容字數:5234字
內容摘要:
整理 | 傅宇琪
3 月 30 日,OpenAI 在官網首次展示了名為“ Voice Engine ”的語音生成模型,該模型能夠通過文本輸入和僅僅 15 秒的音頻樣本生成與原始說話者聲音高度相似、充滿情感且逼真的自然語言語音。據悉,OpenAI 于 2022 年末首次開發出 Voice Engine,并已將其應用于其文本轉語音 API 以及 ChatGPT 語音和朗讀功能中的預設語音。
這項技術的問世,顯然將對那些經常錄制自己語音的人產生重大影響,包括播客、配音藝術家、口語表演者、有聲書和廣告解說員、游戲玩家、流媒體主播、客戶服務代理、銷售人員等眾多職業。
不過目前,這項技術僅在小范圍內提供,擁有訪問權限的公司包括:教育技術公司 Age of Learning、視覺敘事平臺 HeyGen、一線健康軟件制造商 Dimagi、AI 通信應用程序創建者 Livox 和衛生系統 Lifespan。OpenAI 在其博客文章中表示:“這些小規模部署有助于為我們的方法、保障措施提供信息,并思考語音引擎如何在各個行業中發揮作用。”
官網文章中,OpenAI 也展示了 Voice Engine 的使用
原文鏈接:15 秒音頻即可“復制”原聲!但OpenAI 擔心新語音模型被濫用而限制發行
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...