騰訊 PCG ARC Lab、新加坡國(guó)立大合發(fā)布 M2UGen:基于 LLM 的多模態(tài)音樂(lè)理解與生成

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:騰訊 PCG ARC Lab、新加坡國(guó)立大合發(fā)布 M2UGen:基于 LLM 的多模態(tài)音樂(lè)理解與生成
關(guān)鍵字:音樂(lè),模型,編碼器,模塊,文本
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):10866字
內(nèi)容摘要:
在過(guò)去的一年里,基于大語(yǔ)言模型LLM的音樂(lè)AIGC技術(shù)蓬勃發(fā)展,為L(zhǎng)LM的下游應(yīng)用注入了新的活力。
本研究成果M2UGen致力于將LLM和音樂(lè)理解與音樂(lè)生成技術(shù)相結(jié)合,構(gòu)建一個(gè)統(tǒng)一的多模態(tài)音樂(lè)AI輔助工具,希望能為音樂(lè)創(chuàng)作領(lǐng)域帶來(lái)新的啟示和突破。1背景介紹ChatGPT誕生伊始,LLM相關(guān)研究進(jìn)入了一個(gè)井噴狀態(tài),也吸引了大量學(xué)術(shù)界和工業(yè)界人士關(guān)注。除了諸如ChatGPT這種僅以文本作為輸入輸出的模型以外,很多研究工作以LLM作為連接不同模態(tài)的橋梁,如視覺(jué)方向的Flamingo[1],音頻方向的SALMONN[2]以及三維方向的3D-GPT[3]等,這極大地?cái)U(kuò)展了LLM的應(yīng)用場(chǎng)景。
已有的基于LLM的研究大都集中在利用LLM輔助進(jìn)行單一的理解或者生成,少有研究將二者結(jié)合起來(lái)。已知的一些多模態(tài)理解與生成LLM的研究工作包括SEED-LLaMA[4](圖像理解與生成)、InternLM-XComposer[5](圖文穿插式對(duì)話)和NExT-GPT[6](任意模態(tài)理解與生成)。其中NExT-GPT和我們的研究工作相關(guān)程度最高,但其音樂(lè)方面能力較弱,還有較大的進(jìn)步空間。
因此,為了填補(bǔ)這個(gè)空白,
原文鏈接:騰訊 PCG ARC Lab、新加坡國(guó)立大合發(fā)布 M2UGen:基于 LLM 的多模態(tài)音樂(lè)理解與生成
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號(hào)