AIGC動態歡迎閱讀
原標題:ICLR 2024 | 為音視頻分離提供新視角,清華大學胡曉林團隊推出RTFS-Net
關鍵字:維度,復雜度,模型,語音,方法
文章來源:機器之心
內容字數:4604字
內容摘要:
機器之心專欄
機器之心編輯部視聽語音分離(AVSS)技術旨在通過面部信息從混合信號中分離出目標說話者的聲音。這項技術能夠應用于智能助手、遠程會議和增強現實等應用,改進在嘈雜環境中語音信號質量。
傳統的視聽語音分離方法依賴于復雜的模型和大量的計算資源,尤其是在嘈雜背景或多說話者場景下,其性能往往受到限制。為了突破這些限制,基于深度學習的方法開始被研究和應用。然而,現有的深度學習方法面臨著高計算復雜度和難以泛化到未知環境的挑戰。
具體來說,當前視聽語音分離方法存在如下問題:
時域方法:可提供高質量的音頻分離效果,但由于參數較多,計算復雜度較高,處理速度較慢。
時頻域方法:計算效率更高,但與時域方法相比,歷來表現不佳。它們面臨三個主要挑戰:
1. 缺乏時間和頻率維度的建模。
2. 沒有充分利用來自多個感受野的視覺線索來提高模型性能。
3. 對復數特征處理不當,導致丟失關鍵的振幅和相位信息。
為了克服這些挑戰,來自清華大學胡曉林副教授團隊的研究者們提出了 RTFS-Net:一種全新的視聽語音分離模型。RTFS-Net 通過壓縮 – 重建的方式,在提高分離性能的同時,大幅減少了模型的計算復雜
原文鏈接:ICLR 2024 | 為音視頻分離提供新視角,清華大學胡曉林團隊推出RTFS-Net
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...