<rt id="60esi"></rt>

中科院聯合多所高校機構推出增強多模態音樂生成的框架

AI工具5個月前發布 AI工具集

221 0 0

產品名稱：VMB
產品簡介：VMB（Visuals Music Bridge）是中國科學院信息工程研究所、中國科學院大學網絡空間安全學院、上海人工智能實驗室、上海交通大學等機構推出的多模態音樂生成框架，能從文本、圖像和視頻等多種輸入模態生成音樂。
詳細介紹：

VMB是什么

VMB（Visuals Music Bridge）是中國科學院信息工程研究所、中國科學院大學網絡空間安全學院、上海人工智能實驗室、上海交通大學等機構推出的多模態音樂生成框架，能從文本、圖像和視頻等多種輸入模態生成音樂。VMB基于構建文本橋接和音樂橋接解決數據稀缺、跨模態對齊弱和可控性有限的問題。文本橋接將視覺輸入轉換為詳細的音樂描述，音樂橋接結合廣泛和針對性的音樂檢索策略，提供用戶控制。VMB的顯式條件音樂生成框架整合兩個橋接，顯著提升音樂質量、模態對齊和定制對齊，超越傳統方法。

中科院聯合多所高校機構推出增強多模態音樂生成的框架

VMB的主要功能

多模態音樂描述模型（Multimodal Music Description Model）：將視覺輸入（如圖像和視頻）轉換成詳細的文本描述，為音樂生成提供文本橋接。
音樂檢索（Dual-track Music Retrieval）：結合廣泛和針對性的音樂檢索策略，提供音樂橋接，支持用戶修改文本描述或提供參考音樂控制輸出音樂。
顯式條件音樂生成（Explicitly Conditioned Music Generation）：基于文本橋接和音樂橋接生成音樂，整合兩個顯式橋接到一個文本到音樂的擴散變換器中。
增強模態對齊：改善輸入模態與生成音樂之間的對齊，讓音樂更貼近輸入的視覺和情感內容。
提升可控性：用戶能用文本描述或提供的音樂樣本指導音樂生成過程，實現更精細的控制。

VMB的技術原理

文本橋接：用多模態音樂描述模型（MMDM），基于InternVL2構建，將視覺輸入轉換為自然語言中的詳細音樂描述，作為音樂生成的文本橋接。
音樂橋接：基于音樂檢索模塊，一方面進行廣泛檢索識別情感和主題內容的全局對齊，另一方面進行針對性檢索關注特定音樂屬性（如節奏、樂器和流派）。
顯式條件音樂生成：結合文本橋接和音樂橋接，用擴散變換器（DiT）將文本描述轉換成音樂。模型用Music ControlFormer整合廣泛檢索的細粒度控制，用Stylization Module處理針對性檢索的整體條件。
檢索增強生成（RAG）：在音樂生成中首次探索RAG技術，動態結合音樂知識，用橋接模態差距，提升跨模態生成性能，增加可控性。
控制信號融合：在生成過程中，用元素級相加的方式將主分支和ControlFormer分支的隱藏狀態結合起來，確保在生成的早期階段建立結構和語義對齊。
風格化模塊：將檢索到的音樂與文本描述結合起來，基于跨注意力機制將條件表示整合到噪聲音樂中，聚焦音樂和文本數據中的風格線索，提高生成音樂與指定屬性之間的對齊度。