性能比肩 Transducer 和 CTC/AED。
原標題:ICLR 2025|小米新一代Kaldi語音識別算法CR-CTC,純CTC性能實現SOTA
文章來源:機器之心
內容字數:8281字
小米新一代Kaldi團隊提出CR-CTC:顯著提升CTC語音識別性能
本文總結了小米新一代Kaldi團隊發表在ICLR 2025上的論文《CR-CTC: Consistency regularization on CTC for improved speech recognition》的主要內容。該論文提出了一種名為CR-CTC (Consistency-Regularized CTC) 的新方法,顯著提升了基于連接時序分類 (CTC) 的自動語音識別 (ASR) 模型的性能,使其達到甚至超越了Transducer和CTC/AED等更復雜模型的水平。
1. CR-CTC方法概述
CR-CTC的核心思想是通過一致性正則化來約束來自同一輸入音頻的兩個增強視圖的CTC概率分布。具體來說,它先對輸入的Mel-spectrogram應用SpecAugment進行數據增強,得到兩個不同的增強視圖;然后,將這兩個視圖分別輸入到參數共享的編碼器模型中,得到對應的兩個CTC概率分布;最后,除了計算兩個CTC損失函數外,還引入一致性正則化損失,最小化兩個分布之間的雙向KL散度。總損失函數為CTC損失和一致性正則化損失的加權和。
2. CR-CTC方法的解釋
論文從三個角度解釋了CR-CTC的有效性:1)自蒸餾(self-distillation):CR-CTC可以看作是對不同增強視圖下模型的子模型進行自蒸餾,增強模型的泛化能力;2)掩碼預測(masked prediction):CR-CTC鼓勵模型利用未被掩碼的區域信息預測被掩碼區域的token分布,提升上下文表征能力;3)峰值抑制(peak suppression):CR-CTC使CTC分布更加平滑,降低模型對訓練數據的過度依賴,提高泛化能力。
3. 實驗結果
實驗結果表明,CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等多個主流ASR數據集上取得了新的SOTA結果,且無需依賴外部訓練數據和語言模型。與標準CTC相比,CR-CTC的性能有顯著提升,與CTC/AED和Transducer模型的性能相當甚至更好。此外,將CR-CTC與CTC/AED和Transducer模型聯合訓練,可以進一步提升其性能。
4. 與其他方法的比較
論文還將CR-CTC與其他提升CTC性能的方法進行了比較,例如添加輔助頭(AED head)或Transducer head進行聯合訓練。結果顯示,CR-CTC的性能顯著優于這些方法,并且參數量更少。
5. 結論
CR-CTC是一種簡單有效的提升CTC語音識別性能的方法,它在多個數據集上取得了SOTA結果,為基于CTC的ASR系統提供了一種新的改進思路。其簡潔的實現和顯著的性能提升使其具有重要的應用價值。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺