ICLR 2025｜小米新一代Kaldi語音識別算法CR-CTC，純CTC性能實現SOTA

性能比肩 Transducer 和 CTC/AED。

原標題：ICLR 2025｜小米新一代Kaldi 語音識別算法CR-CTC，純CTC性能實現SOTA
文章來源：機器之心
內容字數：8281字

小米新一代Kaldi團隊提出CR-CTC：顯著提升CTC語音識別性能

本文總結了小米新一代Kaldi團隊發表在ICLR 2025上的論文《CR-CTC: Consistency regularization on CTC for improved speech recognition》的主要內容。該論文提出了一種名為CR-CTC (Consistency-Regularized CTC) 的新方法，顯著提升了基于連接時序分類 (CTC) 的自動語音識別 (ASR) 模型的性能，使其達到甚至超越了Transducer和CTC/AED等更復雜模型的水平。

1. CR-CTC方法概述

CR-CTC的核心思想是通過一致性正則化來約束來自同一輸入音頻的兩個增強視圖的CTC概率分布。具體來說，它先對輸入的Mel-spectrogram應用SpecAugment進行數據增強，得到兩個不同的增強視圖；然后，將這兩個視圖分別輸入到參數共享的編碼器模型中，得到對應的兩個CTC概率分布；最后，除了計算兩個CTC損失函數外，還引入一致性正則化損失，最小化兩個分布之間的雙向KL散度。總損失函數為CTC損失和一致性正則化損失的加權和。

2. CR-CTC方法的解釋

論文從三個角度解釋了CR-CTC的有效性：1）自蒸餾(self-distillation)：CR-CTC可以看作是對不同增強視圖下模型的子模型進行自蒸餾，增強模型的泛化能力；2）掩碼預測(masked prediction)：CR-CTC鼓勵模型利用未被掩碼的區域信息預測被掩碼區域的token分布，提升上下文表征能力；3）峰值抑制(peak suppression)：CR-CTC使CTC分布更加平滑，降低模型對訓練數據的過度依賴，提高泛化能力。

3. 實驗結果

實驗結果表明，CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等多個主流ASR數據集上取得了新的SOTA結果，且無需依賴外部訓練數據和語言模型。與標準CTC相比，CR-CTC的性能有顯著提升，與CTC/AED和Transducer模型的性能相當甚至更好。此外，將CR-CTC與CTC/AED和Transducer模型聯合訓練，可以進一步提升其性能。

4. 與其他方法的比較

論文還將CR-CTC與其他提升CTC性能的方法進行了比較，例如添加輔助頭(AED head)或Transducer head進行聯合訓練。結果顯示，CR-CTC的性能顯著優于這些方法，并且參數量更少。

5. 結論

CR-CTC是一種簡單有效的提升CTC語音識別性能的方法，它在多個數據集上取得了SOTA結果，為基于CTC的ASR系統提供了一種新的改進思路。其簡潔的實現和顯著的性能提升使其具有重要的應用價值。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # CR-CTC # Kaldi # 小米 # 純CTC # 語音識別

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

ICLR 2025｜小米新一代Kaldi語音識別算法CR-CTC，純CTC性能實現SOTA

性能比肩 Transducer 和 CTC/AED。

小米新一代Kaldi團隊提出CR-CTC：顯著提升CTC語音識別性能

1. CR-CTC方法概述

2. CR-CTC方法的解釋

3. 實驗結果

4. 與其他方法的比較

5. 結論

聯系作者

我不幸得了一個“四川病”

微軟官宣All in智能體，SWE Agent首曝光！奧特曼預警2025編程巨變

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點