EzAudio

EzAudio是由約翰霍普金斯大學與騰訊AI實驗室合作開發(fā)的一款創(chuàng)新性文本到音頻（Text-to-Audio，T2A）生成模型。該模型利用高效的擴散變換器技術，能夠根據文本提示生成高保真度的音頻效果。EzAudio在生成速度、資源效率和音頻真實感等方面設定了新的標準，其獨特之處在于采用了無分類器引導重縮放技術，從而簡化了模型的使用并保持了音頻質量。

EzAudio

EzAudio的主要功能

文本至音頻生成：根據用戶提供的文本描述生成對應的音頻內容。
高效性能：優(yōu)化后的模型架構顯著降低了計算資源需求，同時提升了生成速度。
優(yōu)質音頻：生成的音頻效果具有極高的保真度，能夠帶來真實的聽覺體驗。
高效訓練數據利用：結合未標記與人工標記的數據，有效提升訓練效率與模型表現。

EzAudio的技術原理

波形變分自動編碼器（VAE）：采用一維波形VAE處理音頻數據，避免了二維頻譜圖處理的復雜性，降低了計算成本，同時確保了高時間分辨率。
優(yōu)化的擴散變換器架構（EzAudio-DiT）：專門設計的擴散模型，包含AdaLN-SOLA和長跳躍連接，以提高模型的參數和內存效率，并保持訓練的穩(wěn)定性。
多階段訓練策略：結合自監(jiān)督學習與監(jiān)督學習，使用掩碼擴散建模和合成字幕數據進行訓練，最后在人工標注數據上進行微調，以提升音頻生成的準確性和質量。
無分類器引導重縮放（CFG Rescaling）：在擴散采樣過程中調整引導強度，以優(yōu)化文本與音頻的匹配，盡量減少對音頻質量的負面影響。