打破模態與語言界限
原標題:只給一張圖,AI找到對應合適BGM,央音清華等構建全球化音樂信息檢索新范式
文章來源:量子位
內容字數:6906字
CLaMP 3:開啟跨模態、跨語言音樂信息檢索新時代
音樂信息檢索(MIR)一直面臨著多模態數據復雜性和多語言文本理解的挑戰。現有MIR系統多關注特定模態對,缺乏跨模態理解,且數據集主要以英語為主,限制了其泛化能力。為此,來自音樂學院、清華大學等機構的研究者提出了CLaMP 3,一個跨模態、跨語言的統一MIR框架。
1. CLaMP 3的核心突破
CLaMP 3通過對比學習,首次實現了樂譜、演奏信號、音頻等音樂模態與多語言文本的聯合對齊。不同模態之間可以通過文本橋接進行高效檢索。其多語言文本編碼器能夠適應從未見過的語言,在跨語言檢索任務上表現卓越。
2. 解決MIR面臨的關鍵問題
CLaMP 3旨在解決MIR領域的三大難題:
- 多模態數據對齊難度高:樂譜、MIDI、音頻等數據表示方式不同,CLaMP 3通過對比學習構建共享表示空間,統一處理不同模態。
- 多語言音樂信息檢索受限:現有數據集多為英語,CLaMP 3構建了覆蓋27種語言、194個國家的M4-RAG數據集,增強模型的跨語言泛化能力。
- 缺乏高質量的多模態-多語言數據:CLaMP 3利用檢索增強生成(RAG)策略,構建了包含2.31M音樂-文本對的M4-RAG數據集,并包含詳細的音樂元數據。
3. CLaMP 3的技術方法
CLaMP 3采用對比學習和檢索增強生成(RAG)策略,構建統一的音樂表示空間。其訓練策略借鑒ImageBind的思想,采用四階段跨模態對齊,確保所有模態最終映射到統一的表示空間,避免模態漂移問題。
4. CLaMP 3的核心組件
CLaMP 3由多個基于Transformer的編碼器組成:
- 多語言文本編碼器:基于XLM-R-base,支持100種語言,具有強大的跨語言泛化能力。
- 符號音樂編碼器:采用M3模型,處理ABC記譜和MIDI數據。
- 音頻音樂編碼器:基于MERT-v1-95M預訓練特征,處理音頻數據。
所有編碼器的輸出經過線性層和平均池化處理,生成全局語義特征,實現不同模態數據的對齊。
5. 數據集:M4-RAG和WikiMT-X
CLaMP 3的訓練依賴于大規模數據集M4-RAG,包含2.31M音樂-文本對,涵蓋27種語言和194個國家。研究團隊還推出了WikiMT-X基準數據集,包含1000個樣本,推動跨模態音樂理解研究。
6. 實驗結果與結論
CLaMP 3在多個MIR任務上取得了SOTA性能,在跨模態、跨語言檢索任務中展現了卓越的泛化能力,即使在未見過的語言上也能取得優異表現。CLaMP 3的成功標志著跨模態、跨語言MIR進入了一個新的時代。
項目相關鏈接:
項目主頁:https://sanderwood.github.io/clamp3
在線Demo:https://huggingface.co/spaces/sander-wood/clamp3
GitHub代碼:https://github.com/sanderwood/clamp3
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破