低算力高性能,真實場景大顯身手
原標題:清華團隊新算法玩轉頻域時域,壓縮95%計算量實現語音分離新SOTA!
文章來源:機器之心
內容字數:7239字
清華大學提出輕量級語音分離模型TIGER及EchoSet數據集
本文介紹了清華大學研究團隊提出的輕量級語音分離模型TIGER及其配套數據集EchoSet。該模型旨在解決現有語音分離模型計算復雜度高和數據集與真實場景差距大的問題,從而提升語音分離在實際應用中的性能和泛化能力。
1. 語音分離的挑戰與TIGER模型
語音分離旨在從混合音頻中分離出不同聲源,是語音識別等任務的重要前置步驟。然而,現有許多高性能模型計算復雜度高,且常用數據集與真實場景存在差距,限制了其在實際應用中的表現。TIGER模型應運而生,它通過時頻交叉建模策略,結合頻帶切分和多尺度注意力機制,在顯著提升分離效果的同時,大幅降低了計算復雜度。TIGER模型的參數量和計算量分別降低了94.3%和95.3%,性能與當前最先進的模型TF-GridNet相當。
2. TIGER模型的架構與創新點
TIGER模型主要包含五個部分:編碼器、頻帶切分模塊、分離器、頻帶恢復模塊和解碼器。其核心創新在于分離器模塊,它由多個共享參數的時頻交叉建模模塊(FFI)構成。每個FFI模塊包含頻率路徑和幀路徑,并分別使用多尺度選擇性注意力模塊(MSA)和全頻/幀注意力模塊(F3A)提取多尺度特征和捕捉長距離依賴關系。頻帶切分策略則進一步減少計算量,提升模型對關鍵頻帶的關注。
3. EchoSet數據集:更真實的模擬
為了彌補現有數據集與真實場景的差距,研究團隊提出了EchoSet數據集。該數據集基于SoundSpaces 2.0平臺和Matterport3D場景數據集構建,模擬了真實的混響效果和隨機的語音重疊比例,包含20,268條訓練語音、4,604條驗證語音和2,650條測試語音。實驗表明,使用EchoSet訓練的模型在真實世界數據上的泛化能力顯著優于其他數據集訓練的模型。
4. 實驗結果與性能比較
實驗結果表明,TIGER在Libri2Mix、LRS2-2Mix和EchoSet等數據集上均表現出色,尤其在EchoSet數據集上性能提升顯著。即使在參數量大幅壓縮的情況下(TIGER tiny),其性能仍優于其他輕量化模型。此外,TIGER在電影音頻分離任務中也展現了強大的泛化能力,能夠有效分離人聲、音樂和音效。
5. 結論
TIGER模型通過巧妙的架構設計和高效的算法,在保證高性能的同時顯著降低了計算成本,并結合更貼近真實場景的EchoSet數據集,為語音分離任務提供了一種新的解決方案。其在計算資源受限的場景下具有廣泛的應用前景。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺