AIGC動態歡迎閱讀
原標題:騰訊 PCG ARC Lab、新加坡國立大合發布 M2UGen:基于 LLM 的多模態音樂理解與生成
關鍵字:音樂,模型,編碼器,模塊,文本
文章來源:AI科技評論
內容字數:10866字
內容摘要:
在過去的一年里,基于大語言模型LLM的音樂AIGC技術蓬勃發展,為LLM的下游應用注入了新的活力。
本研究成果M2UGen致力于將LLM和音樂理解與音樂生成技術相結合,構建一個統一的多模態音樂AI輔助工具,希望能為音樂創作領域帶來新的啟示和突破。1背景介紹ChatGPT誕生伊始,LLM相關研究進入了一個井噴狀態,也吸引了大量學術界和工業界人士關注。除了諸如ChatGPT這種僅以文本作為輸入輸出的模型以外,很多研究工作以LLM作為連接不同模態的橋梁,如視覺方向的Flamingo[1],音頻方向的SALMONN[2]以及三維方向的3D-GPT[3]等,這極大地擴展了LLM的應用場景。
已有的基于LLM的研究大都集中在利用LLM輔助進行單一的理解或者生成,少有研究將二者結合起來。已知的一些多模態理解與生成LLM的研究工作包括SEED-LLaMA[4](圖像理解與生成)、InternLM-XComposer[5](圖文穿插式對話)和NExT-GPT[6](任意模態理解與生成)。其中NExT-GPT和我們的研究工作相關程度最高,但其音樂方面能力較弱,還有較大的進步空間。
因此,為了填補這個空白,
原文鏈接:騰訊 PCG ARC Lab、新加坡國立大合發布 M2UGen:基于 LLM 的多模態音樂理解與生成
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...