清華團隊新算法玩轉頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

低算力高性能，真實場景大顯身手

原標題：清華團隊新算法玩轉頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！
文章來源：機器之心
內容字數(shù)：7239字

清華大學提出輕量級語音分離模型TIGER及EchoSet數(shù)據(jù)集

本文介紹了清華大學研究團隊提出的輕量級語音分離模型TIGER及其配套數(shù)據(jù)集EchoSet。該模型旨在解決現(xiàn)有語音分離模型計算復雜度高和數(shù)據(jù)集與真實場景差距大的問題，從而提升語音分離在實際應用中的性能和泛化能力。

1. 語音分離的挑戰(zhàn)與TIGER模型

語音分離旨在從混合音頻中分離出不同聲源，是語音識別等任務的重要前置步驟。然而，現(xiàn)有許多高性能模型計算復雜度高，且常用數(shù)據(jù)集與真實場景存在差距，限制了其在實際應用中的表現(xiàn)。TIGER模型應運而生，它通過時頻交叉建模策略，結合頻帶切分和多尺度注意力機制，在顯著提升分離效果的同時，大幅降低了計算復雜度。TIGER模型的參數(shù)量和計算量分別降低了94.3%和95.3%，性能與當前最先進的模型TF-GridNet相當。

2. TIGER模型的架構與創(chuàng)新點

TIGER模型主要包含五個部分：編碼器、頻帶切分模塊、分離器、頻帶恢復模塊和解碼器。其核心創(chuàng)新在于分離器模塊，它由多個共享參數(shù)的時頻交叉建模模塊(FFI)構成。每個FFI模塊包含頻率路徑和幀路徑，并分別使用多尺度選擇性注意力模塊(MSA)和全頻/幀注意力模塊(F3A)提取多尺度特征和捕捉長距離依賴關系。頻帶切分策略則進一步減少計算量，提升模型對關鍵頻帶的關注。

3. EchoSet數(shù)據(jù)集：更真實的模擬

為了彌補現(xiàn)有數(shù)據(jù)集與真實場景的差距，研究團隊提出了EchoSet數(shù)據(jù)集。該數(shù)據(jù)集基于SoundSpaces 2.0平臺和Matterport3D場景數(shù)據(jù)集構建，模擬了真實的混響效果和隨機的語音重疊比例，包含20,268條訓練語音、4,604條驗證語音和2,650條測試語音。實驗表明，使用EchoSet訓練的模型在真實世界數(shù)據(jù)上的泛化能力顯著優(yōu)于其他數(shù)據(jù)集訓練的模型。

4. 實驗結果與性能比較

實驗結果表明，TIGER在Libri2Mix、LRS2-2Mix和EchoSet等數(shù)據(jù)集上均表現(xiàn)出色，尤其在EchoSet數(shù)據(jù)集上性能提升顯著。即使在參數(shù)量大幅壓縮的情況下（TIGER tiny），其性能仍優(yōu)于其他輕量化模型。此外，TIGER在電影音頻分離任務中也展現(xiàn)了強大的泛化能力，能夠有效分離人聲、音樂和音效。

5. 結論

TIGER模型通過巧妙的架構設計和高效的算法，在保證高性能的同時顯著降低了計算成本，并結合更貼近真實場景的EchoSet數(shù)據(jù)集，為語音分離任務提供了一種新的解決方案。其在計算資源受限的場景下具有廣泛的應用前景。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產業(yè)服務平臺

閱讀原文

# AIGC動態(tài)# 時域壓縮 # 清華大學算法 # 計算量壓縮 # 語音分離 # 頻域壓縮

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

清華團隊新算法玩轉頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

低算力高性能，真實場景大顯身手

清華大學提出輕量級語音分離模型TIGER及EchoSet數(shù)據(jù)集

1. 語音分離的挑戰(zhàn)與TIGER模型

2. TIGER模型的架構與創(chuàng)新點

3. EchoSet數(shù)據(jù)集：更真實的模擬

4. 實驗結果與性能比較

5. 結論

聯(lián)系作者

「硅基大腦」來了，UCSF華人實驗室打造！神經科學未來不是碳基？

百度決定背叛閉源大模型，李彥宏重新?lián)肀ч_源

相關文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

清華團隊新算法玩轉頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

低算力高性能，真實場景大顯身手

清華大學提出輕量級語音分離模型TIGER及EchoSet數(shù)據(jù)集

1. 語音分離的挑戰(zhàn)與TIGER模型

2. TIGER模型的架構與創(chuàng)新點

3. EchoSet數(shù)據(jù)集：更真實的模擬

4. 實驗結果與性能比較

5. 結論

聯(lián)系作者

「硅基大腦」來了，UCSF華人實驗室打造！神經科學未來不是碳基？

百度決定背叛閉源大模型，李彥宏重新?lián)肀ч_源

相關文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

清華團隊新算法玩轉頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

低算力高性能，真實場景大顯身手

「硅基大腦」來了，UCSF華人實驗室打造！神經科學未來不是碳基？

百度決定背叛閉源大模型，李彥宏重新?lián)肀ч_源