AIGC動態歡迎閱讀
原標題:大模型學會聽音樂了!風格樂器精準分析,還能剪輯合成
關鍵字:音樂,騰訊,模型,編碼器,模塊
文章來源:量子位
內容字數:6347字
內容摘要:
騰訊PCG ARC實驗室 投稿量子位 | 公眾號 QbitAI能處理音樂的多模態大模型,終于出現了!
只見它準確分析出音樂的旋律、節奏,還有使用的樂器,甚至其中的意境也能解讀。而且它不僅會聽,只要給它一段文字和圖片,它就會在理解圖片意境之后,結合文字要求來創作:甚至是給靜默的視頻配上聲音:現有的音樂它也能編輯,比如從一段音樂中去除鼓的聲音以上的這些效果,都出自騰訊PCG ARC實驗室新推出的基于多模態模型的音樂理解與生成框架M2UGen。
它可以進行音樂理解、音樂編輯以及多模態音樂生成(文本/圖像/視頻到音樂生成)。
研究團隊在模型的五種能力上分別和現有模型進行了一一對比,并在多模態音樂生成的三個子任務上(文本/圖像/視頻到音樂生成)做了主觀評測實驗,發現M2UGen模型性能均優于現有模型。
此外,由于沒有很多合適數據集用于模型訓練,研究團隊還研發了一套數據生成方法,制作了MUCaps、MUEdit、MUImage、MUVideo四個數據集并發布。
目前團隊已將模型代碼庫在Github開源,并在Huggingface上開放了模型權重和訓練所需數據集(需申請)。
那么,M2UGen究竟是
原文鏈接:大模型學會聽音樂了!風格樂器精準分析,還能剪輯合成
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...