大模型學會聽音樂了！風格樂器精準分析，還能剪輯合成

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：大模型學會聽音樂了！風格樂器精準分析，還能剪輯合成
關鍵字：音樂,騰訊,模型,編碼器,模塊
文章來源：量子位
內容字數：6347字

內容摘要：

騰訊PCG ARC實驗室投稿量子位 | 公眾號 QbitAI能處理音樂的多模態大模型，終于出現了！
只見它準確分析出音樂的旋律、節奏，還有使用的樂器，甚至其中的意境也能解讀。而且它不僅會聽，只要給它一段文字和圖片，它就會在理解圖片意境之后，結合文字要求來創作：甚至是給靜默的視頻配上聲音：現有的音樂它也能編輯，比如從一段音樂中去除鼓的聲音以上的這些效果，都出自騰訊PCG ARC實驗室新推出的基于多模態模型的音樂理解與生成框架M2UGen。
它可以進行音樂理解、音樂編輯以及多模態音樂生成（文本/圖像/視頻到音樂生成）。
研究團隊在模型的五種能力上分別和現有模型進行了一一對比，并在多模態音樂生成的三個子任務上（文本/圖像/視頻到音樂生成）做了主觀評測實驗，發現M2UGen模型性能均優于現有模型。
此外，由于沒有很多合適數據集用于模型訓練，研究團隊還研發了一套數據生成方法，制作了MUCaps、MUEdit、MUImage、MUVideo四個數據集并發布。
目前團隊已將模型代碼庫在Github開源，并在Huggingface上開放了模型權重和訓練所需數據集（需申請）。
那么，M2UGen究竟是

原文鏈接：大模型學會聽音樂了！風格樂器精準分析，還能剪輯合成