小紅書語音識別新突破！開源FireRedASR，中文效果新SOTA

模型和代碼已經全部開源。

原標題：小紅書語音識別新突破！開源FireRedASR，中文效果新SOTA
文章來源：機器之心
內容字數：3159字

小紅書FireRed團隊開源基于大模型的語音識別模型FireRedASR，刷新SOTA

機器之心AIxiv專欄報道了小紅書FireRed團隊最新開源的基于大模型的語音識別模型FireRedASR。該模型在中文語音識別領域取得了顯著突破，并在多個公開測試集上刷新了SOTA（State-Of-The-Art），其字錯誤率（CER）指標大幅降低，展現了強大的性能和廣泛的應用潛力。

1. FireRedASR模型概述

FireRedASR系列模型包含兩種核心結構：FireRedASR-LLM和FireRedASR-AED。FireRedASR-LLM結合了文本預訓練LLM的能力，追求極致的識別準確率，適用于對準確性要求極高的應用場景。FireRedASR-AED基于經典的Attention-based Encoder-Decoder架構，通過擴展參數至1.1B，在高準確率和推理效率之間取得了平衡。

2. 性能突破與SOTA刷新

在業界常用的中文普通話公開測試集上，FireRedASR-LLM（8.3B參數量）取得了最佳CER 3.05%，成為新的SOTA！FireRedASR-AED（1.1B參數量）緊隨其后，CER為3.18%。兩者均優于此前的SOTA模型Seed-ASR（12+B參數量），且參數量更小。此外，FireRedASR在AISHELL-1、AISHELL-2 iOS測試集以及WenetSpeech的Internet和Meeting測試集上也表現出色，均優于Qwen-Audio、SenseVoice、Whisper和Paraformer等模型。

3. 多場景應用及優勢

FireRedASR不僅在公開測試集上表現優異，在包含短視頻、直播、語音輸入和智能助手等多種來源的Speech測試集上，FireRedASR-LLM的CER相對領先的ASR服務提供商和Paraformer-Large降低了23.7%~40.0%。在歌詞識別場景中，CER更是降低了50.2%~66.7%。此外，FireRedASR在中文方言(KeSpeech)和英語(LibriSpeech)測試集上也表現不俗，顯著優于之前的開源SOTA模型，展現了其強大的語言適配能力和魯棒性。