谷歌真·AI配音神器來了!自動看懂畫面、對齊音頻,能為任何視頻生成無數(shù)音頻

AIGC動態(tài)歡迎閱讀
原標題:谷歌真·AI配音神器來了!自動看懂畫面、對齊音頻,能為任何視頻生成無數(shù)音頻
關(guān)鍵字:音頻,視頻,提示,畫面,模型
文章來源:智東西
內(nèi)容字數(shù):0字
內(nèi)容摘要:
谷歌DeepMind發(fā)布最新AI視頻自動配音工具,AI視頻正式開啟有聲時代!
編譯|陳駿達
編輯|程茜
智東西6月18日消息,今日凌晨,谷歌DeepMind發(fā)布了一個名為V2A(Video-to-Audio)的系統(tǒng),能根據(jù)畫面內(nèi)容或者手動輸入的提示詞直接為視頻配音。它還可以為任何視頻輸入生成無限數(shù)量的音軌。
谷歌DeepMindV2A系統(tǒng)最大的特點就是無需人工輸入提示詞也可以為視頻配音。DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素。也就是說,V2A能看懂畫面,知道畫面里正在發(fā)生什么,應該出現(xiàn)什么聲音。
▲谷歌DeepMind發(fā)布的V2A Demo視頻
當然,V2A也能夠根據(jù)提示詞生成所需的音頻。使用者可以通過輸入“正面提示詞”來引導模型輸出所需的聲音,或輸入“負面提示詞”來引導其避免出現(xiàn)不需要的聲音,這給了使用者更大的控制權(quán)。
與其它AI音頻生成工具不同,V2A在生成音頻后無需人工對齊音頻視頻,而是可以直接自動將音頻與畫面對齊。
但谷歌DeepMind也承認,這一系統(tǒng)目前仍然存在很大的局限性。如果輸入的視頻質(zhì)量不高,那么輸出的音頻質(zhì)量也會出現(xiàn)明顯的下降。他們認為
原文鏈接:谷歌真·AI配音神器來了!自動看懂畫面、對齊音頻,能為任何視頻生成無數(shù)音頻
聯(lián)系作者
文章來源:智東西
作者微信:zhidxcom
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導的前沿技術(shù)發(fā)展,和技術(shù)應用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務產(chǎn)業(yè)升級。

粵公網(wǎng)安備 44011502001135號