ICLR 2024 | 為音視頻分離提供新視角，清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：ICLR 2024 | 為音視頻分離提供新視角，清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net
關(guān)鍵字：維度,復(fù)雜度,模型,語(yǔ)音,方法
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4604字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部視聽語(yǔ)音分離（AVSS）技術(shù)旨在通過(guò)面部信息從混合信號(hào)中分離出目標(biāo)說(shuō)話者的聲音。這項(xiàng)技術(shù)能夠應(yīng)用于智能助手、遠(yuǎn)程會(huì)議和增強(qiáng)現(xiàn)實(shí)等應(yīng)用，改進(jìn)在嘈雜環(huán)境中語(yǔ)音信號(hào)質(zhì)量。
傳統(tǒng)的視聽語(yǔ)音分離方法依賴于復(fù)雜的模型和大量的計(jì)算資源，尤其是在嘈雜背景或多說(shuō)話者場(chǎng)景下，其性能往往受到限制。為了突破這些限制，基于深度學(xué)習(xí)的方法開始被研究和應(yīng)用。然而，現(xiàn)有的深度學(xué)習(xí)方法面臨著高計(jì)算復(fù)雜度和難以泛化到未知環(huán)境的挑戰(zhàn)。
具體來(lái)說(shuō)，當(dāng)前視聽語(yǔ)音分離方法存在如下問(wèn)題：
時(shí)域方法：可提供高質(zhì)量的音頻分離效果，但由于參數(shù)較多，計(jì)算復(fù)雜度較高，處理速度較慢。
時(shí)頻域方法：計(jì)算效率更高，但與時(shí)域方法相比，歷來(lái)表現(xiàn)不佳。它們面臨三個(gè)主要挑戰(zhàn)：
1. 缺乏時(shí)間和頻率維度的建模。
2. 沒有充分利用來(lái)自多個(gè)感受野的視覺線索來(lái)提高模型性能。
3. 對(duì)復(fù)數(shù)特征處理不當(dāng)，導(dǎo)致丟失關(guān)鍵的振幅和相位信息。
為了克服這些挑戰(zhàn)，來(lái)自清華大學(xué)胡曉林副教授團(tuán)隊(duì)的研究者們提出了 RTFS-Net：一種全新的視聽語(yǔ)音分離模型。RTFS-Net 通過(guò)壓縮 – 重建的方式，在提高分離性能的同時(shí)，大幅減少了模型的計(jì)算復(fù)雜

原文鏈接：ICLR 2024 | 為音視頻分離提供新視角，清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net