MuCodec是由清華大學深圳國際研究生院、騰訊AI實驗室及香港中文大學的研究團隊共同開發的一款超低比特率音樂編解碼器,旨在實現音樂的高效壓縮與高保真重建。這款編解碼器借助MuEncoder提取音樂的聲學和語義特征,利用RVQ技術進行特征離散化,并通過流匹配方法重建Mel-VAE特征,最終在比特率范圍0.35kbps至1.35kbps之間實現行業領先的壓縮效率和音質。
MuCodec是什么
MuCodec是一個創新的超低比特率音樂編解碼器,由清華大學深圳國際研究生院、騰訊AI實驗室和香港中文大學的研究者聯合開發。該技術能夠高效地壓縮音樂文件,同時在重建時保持高保真度。MuCodec通過MuEncoder提取音樂的聲學和語義特征,采用RVQ技術進行特征離散化,并運用流匹配方法重建Mel-VAE特征。最終,利用預訓練的Mel-VAE解碼器和HiFi-GAN生成重建音樂,確保在極低比特率下依然能夠提供優質音頻體驗。
MuCodec的主要功能
- 高效音樂壓縮:MuCodec能夠在極低的比特率下有效壓縮音樂,支持超低至0.35kbps的比特率。
- 高保真重建:在超低比特率的條件下,能重建出高質量的音樂。
- 特征提取:利用MuEncoder提取音樂的聲學與語義特征,捕捉音樂的核心特性。
- 離散化處理:采用RVQ(Residual Vector Quantization)技術對提取特征進行離散化,便于壓縮處理。
- 流匹配重建:采用流匹配方法重建Mel-VAE特征,實現音頻的精細重建。
- 雙比特率支持:可在低(0.35kbps)和高(1.35kbps)比特率下靈活運作,滿足多樣化的應用需求。
MuCodec的技術原理
- MuEncoder:MuEncoder作為特征提取工具,專注于人聲和背景音樂兩個關鍵方面,提取聲學和語義特征。
- 兩階段訓練:
- 第一階段:利用掩碼語言模型(Mask Language Model)約束學習,預測掩碼區域,并基于未掩碼的音頻信號增強上下文信息的感知能力。
- 第二階段:引入重建和歌詞識別約束,涵蓋Mel頻譜圖和CQT(Constant-Q Transform)特征的重建,確保提取特征包含豐富的語義信息。
- RVQ(Residual Vector Quantization):采用RVQ技術對MuEncoder特征進行離散化,基于殘差過程實現有效的壓縮表示,并采用級聯碼本提供更精細的近似。
- 流匹配:通過流匹配方法進行重建,該方法相比于GAN(Generative Adversarial Networks)訓練更為穩定,且在超低比特率任務中能取得更優的重建效果。流匹配使用離散化的MuEncoder表示作為條件,基于Diffusion Transformer進行精細重建。
- Mel-VAE解碼器與HiFi-GAN:通過預訓練的Mel-VAE解碼器恢復重建的Mel頻譜圖,最終使用預訓練的HiFi-GAN生成重建后的音樂。
MuCodec的項目地址
- 項目官網:xuyaoxun.github.io/MuCodec_demo
- GitHub倉庫:https://github.com/xuyaoxun/MuCodec
- arXiv技術論文:https://arxiv.org/pdf/2409.13216
MuCodec的應用場景
- 在線音樂流媒體服務:在保證音質的前提下,有效減少音樂文件的大小,幫助在線音樂流媒體服務提供商降低存儲和帶寬成本。
- 音樂下載:用戶能夠下載更小體積的音樂文件,從而節省存儲空間,并在移動設備上降低數據消耗。
- 語言模型建設:在構建需要處理短序列音樂數據的語言模型時,MuCodec能夠有效壓縮音樂數據,提高處理效率。
- 音頻編輯和處理軟件:音頻編輯軟件可以集成MuCodec作為音頻壓縮和重建的工具,以提高音頻處理的效率。
- 移動設備和嵌入式系統:在存儲與計算資源有限的移動設備或嵌入式系統中,MuCodec能在保持音質的同時有效減少資源消耗。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...