模型和代碼已經全部開源。
原標題:小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA
文章來源:機器之心
內容字數:3159字
小紅書FireRed團隊開源基于大模型的語音識別模型FireRedASR,刷新SOTA
機器之心AIxiv專欄報道了小紅書FireRed團隊最新開源的基于大模型的語音識別模型FireRedASR。該模型在中文語音識別領域取得了顯著突破,并在多個公開測試集上刷新了SOTA(State-Of-The-Art),其字錯誤率(CER)指標大幅降低,展現了強大的性能和廣泛的應用潛力。
1. FireRedASR模型概述
FireRedASR系列模型包含兩種核心結構:FireRedASR-LLM和FireRedASR-AED。FireRedASR-LLM結合了文本預訓練LLM的能力,追求極致的識別準確率,適用于對準確性要求極高的應用場景。FireRedASR-AED基于經典的Attention-based Encoder-Decoder架構,通過擴展參數至1.1B,在高準確率和推理效率之間取得了平衡。
2. 性能突破與SOTA刷新
在業界常用的中文普通話公開測試集上,FireRedASR-LLM(8.3B參數量)取得了最佳CER 3.05%,成為新的SOTA!FireRedASR-AED(1.1B參數量)緊隨其后,CER為3.18%。兩者均優于此前的SOTA模型Seed-ASR(12+B參數量),且參數量更小。此外,FireRedASR在AISHELL-1、AISHELL-2 iOS測試集以及WenetSpeech的Internet和Meeting測試集上也表現出色,均優于Qwen-Audio、SenseVoice、Whisper和Paraformer等模型。
3. 多場景應用及優勢
FireRedASR不僅在公開測試集上表現優異,在包含短視頻、直播、語音輸入和智能助手等多種來源的Speech測試集上,FireRedASR-LLM的CER相對領先的ASR服務提供商和Paraformer-Large降低了23.7%~40.0%。在歌詞識別場景中,CER更是降低了50.2%~66.7%。此外,FireRedASR在中文方言(KeSpeech)和英語(LibriSpeech)測試集上也表現不俗,顯著優于之前的開源SOTA模型,展現了其強大的語言適配能力和魯棒性。
4. 開源貢獻
FireRed團隊已將FireRedASR的模型和代碼全部開源,旨在為語音社區做出貢獻,促進ASR的應用和端到端語音交互的發展。其開源地址為:https://github.com/FireRedTeam/FireRedASR。
5. 論文信息
論文標題:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
論文地址:http://arxiv.org/abs/2501.14350
FireRedASR的卓越性能源于團隊的技術創新,具體細節可參考團隊公開的技術報告。該模型的開源,無疑將推動語音識別技術的發展,并為相關應用帶來更多可能性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺