MuCodec：超低比特率音樂編解碼器實現高保真音質與極致壓縮效率

MuCodec是由清華大學深圳國際研究生院、騰訊AI實驗室及香港中文大學的研究團隊共同開發的一款超低比特率音樂編解碼器，旨在實現音樂的高效壓縮與高保真重建。這款編解碼器借助MuEncoder提取音樂的聲學和語義特征，利用RVQ技術進行特征離散化，并通過流匹配方法重建Mel-VAE特征，最終在比特率范圍0.35kbps至1.35kbps之間實現行業領先的壓縮效率和音質。

MuCodec是什么

MuCodec是一個創新的超低比特率音樂編解碼器，由清華大學深圳國際研究生院、騰訊AI實驗室和香港中文大學的研究者聯合開發。該技術能夠高效地壓縮音樂文件，同時在重建時保持高保真度。MuCodec通過MuEncoder提取音樂的聲學和語義特征，采用RVQ技術進行特征離散化，并運用流匹配方法重建Mel-VAE特征。最終，利用預訓練的Mel-VAE解碼器和HiFi-GAN生成重建音樂，確保在極低比特率下依然能夠提供優質音頻體驗。

MuCodec的主要功能

高效音樂壓縮：MuCodec能夠在極低的比特率下有效壓縮音樂，支持超低至0.35kbps的比特率。
高保真重建：在超低比特率的條件下，能重建出高質量的音樂。
特征提取：利用MuEncoder提取音樂的聲學與語義特征，捕捉音樂的核心特性。
離散化處理：采用RVQ（Residual Vector Quantization）技術對提取特征進行離散化，便于壓縮處理。
流匹配重建：采用流匹配方法重建Mel-VAE特征，實現音頻的精細重建。
雙比特率支持：可在低（0.35kbps）和高（1.35kbps）比特率下靈活運作，滿足多樣化的應用需求。

MuCodec的技術原理

MuEncoder：MuEncoder作為特征提取工具，專注于人聲和背景音樂兩個關鍵方面，提取聲學和語義特征。
兩階段訓練：
- 第一階段：利用掩碼語言模型（Mask Language Model）約束學習，預測掩碼區域，并基于未掩碼的音頻信號增強上下文信息的感知能力。
- 第二階段：引入重建和歌詞識別約束，涵蓋Mel頻譜圖和CQT（Constant-Q Transform）特征的重建，確保提取特征包含豐富的語義信息。
RVQ（Residual Vector Quantization）：采用RVQ技術對MuEncoder特征進行離散化，基于殘差過程實現有效的壓縮表示，并采用級聯碼本提供更精細的近似。
流匹配：通過流匹配方法進行重建，該方法相比于GAN（Generative Adversarial Networks）訓練更為穩定，且在超低比特率任務中能取得更優的重建效果。流匹配使用離散化的MuEncoder表示作為條件，基于Diffusion Transformer進行精細重建。
Mel-VAE解碼器與HiFi-GAN：通過預訓練的Mel-VAE解碼器恢復重建的Mel頻譜圖，最終使用預訓練的HiFi-GAN生成重建后的音樂。