ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net
關(guān)鍵字:維度,復(fù)雜度,模型,語(yǔ)音,方法
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4604字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部視聽語(yǔ)音分離(AVSS)技術(shù)旨在通過(guò)面部信息從混合信號(hào)中分離出目標(biāo)說(shuō)話者的聲音。這項(xiàng)技術(shù)能夠應(yīng)用于智能助手、遠(yuǎn)程會(huì)議和增強(qiáng)現(xiàn)實(shí)等應(yīng)用,改進(jìn)在嘈雜環(huán)境中語(yǔ)音信號(hào)質(zhì)量。
傳統(tǒng)的視聽語(yǔ)音分離方法依賴于復(fù)雜的模型和大量的計(jì)算資源,尤其是在嘈雜背景或多說(shuō)話者場(chǎng)景下,其性能往往受到限制。為了突破這些限制,基于深度學(xué)習(xí)的方法開始被研究和應(yīng)用。然而,現(xiàn)有的深度學(xué)習(xí)方法面臨著高計(jì)算復(fù)雜度和難以泛化到未知環(huán)境的挑戰(zhàn)。
具體來(lái)說(shuō),當(dāng)前視聽語(yǔ)音分離方法存在如下問(wèn)題:
時(shí)域方法:可提供高質(zhì)量的音頻分離效果,但由于參數(shù)較多,計(jì)算復(fù)雜度較高,處理速度較慢。
時(shí)頻域方法:計(jì)算效率更高,但與時(shí)域方法相比,歷來(lái)表現(xiàn)不佳。它們面臨三個(gè)主要挑戰(zhàn):
1. 缺乏時(shí)間和頻率維度的建模。
2. 沒有充分利用來(lái)自多個(gè)感受野的視覺線索來(lái)提高模型性能。
3. 對(duì)復(fù)數(shù)特征處理不當(dāng),導(dǎo)致丟失關(guān)鍵的振幅和相位信息。
為了克服這些挑戰(zhàn),來(lái)自清華大學(xué)胡曉林副教授團(tuán)隊(duì)的研究者們提出了 RTFS-Net:一種全新的視聽語(yǔ)音分離模型。RTFS-Net 通過(guò)壓縮 – 重建的方式,在提高分離性能的同時(shí),大幅減少了模型的計(jì)算復(fù)雜
原文鏈接:ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊(duì)推出RTFS-Net
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)