Google DeepMind 最新研究：為AI視頻生成創建逼真的背景聲音

AIGC動態1年前 (2024)發布人工智能學家

AIGC動態歡迎閱讀

原標題：Google DeepMind 最新研究：為AI視頻生成創建逼真的背景聲音
關鍵字：報告,快手,視頻,音頻,提示
文章來源：人工智能學家
內容字數：0字

內容摘要：

來源：學術頭條
自 Sora 發布以來，國內外各大科技公司和研究機構都在競相推出“文生視頻”大模型，比如生數科技的 Vidu、快手的可靈和 Runway 昨天才發布的 Gen-3 Alpha 等。
然而，目前許多系統只能生成無聲輸出，在視頻生成過程中，為視頻生成栩栩如生、同步的音頻，亦是一個不可忽視的關鍵環節，它不僅關系到視頻內容的質感和真實感，還影響到信息的傳遞和用戶的體驗。
同樣在昨天，Google DeepMind 分享了他們在“視頻生音頻”方面的新進展——V2A，使同步視聽生成成為可能。
據介紹，V2A 將視頻像素與自然語言文本提示相結合，為屏幕上的動作生成豐富的音效。這一技術可與視頻生成模型搭配使用，從而創建具有逼真音效或對話的鏡頭，從而與視頻中的角色和基調相匹配。
V2A還可以為各種傳統素材（包括檔案資料、無聲電影等）生成配樂，從而為創作提供更多機會。
以下是 Google DeepMind 官網上的幾個配音 demo：
提示：電影、驚悚片、恐怖片、音樂、緊張、氛圍、混凝土上的腳步聲提示：音樂會舞臺上的鼓手，周圍是閃爍的燈光和歡呼的人群提示：草原上夕陽西下，口琴聲悠揚婉轉增

原文鏈接：Google DeepMind 最新研究：為AI視頻生成創建逼真的背景聲音