小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA
模型和代碼已經(jīng)全部開源。
原標(biāo)題:小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA
文章來源:機器之心
內(nèi)容字?jǐn)?shù):3159字
小紅書FireRed團隊開源基于大模型的語音識別模型FireRedASR,刷新SOTA
機器之心AIxiv專欄報道了小紅書FireRed團隊最新開源的基于大模型的語音識別模型FireRedASR。該模型在中文語音識別領(lǐng)域取得了顯著突破,并在多個公開測試集上刷新了SOTA(State-Of-The-Art),其字錯誤率(CER)指標(biāo)大幅降低,展現(xiàn)了強大的性能和廣泛的應(yīng)用潛力。
1. FireRedASR模型概述
FireRedASR系列模型包含兩種核心結(jié)構(gòu):FireRedASR-LLM和FireRedASR-AED。FireRedASR-LLM結(jié)合了文本預(yù)訓(xùn)練LLM的能力,追求極致的識別準(zhǔn)確率,適用于對準(zhǔn)確性要求極高的應(yīng)用場景。FireRedASR-AED基于經(jīng)典的Attention-based Encoder-Decoder架構(gòu),通過擴展參數(shù)至1.1B,在高準(zhǔn)確率和推理效率之間取得了平衡。
2. 性能突破與SOTA刷新
在業(yè)界常用的中文普通話公開測試集上,F(xiàn)ireRedASR-LLM(8.3B參數(shù)量)取得了最佳CER 3.05%,成為新的SOTA!FireRedASR-AED(1.1B參數(shù)量)緊隨其后,CER為3.18%。兩者均優(yōu)于此前的SOTA模型Seed-ASR(12+B參數(shù)量),且參數(shù)量更小。此外,F(xiàn)ireRedASR在AISHELL-1、AISHELL-2 iOS測試集以及WenetSpeech的Internet和Meeting測試集上也表現(xiàn)出色,均優(yōu)于Qwen-Audio、SenseVoice、Whisper和Paraformer等模型。
3. 多場景應(yīng)用及優(yōu)勢
FireRedASR不僅在公開測試集上表現(xiàn)優(yōu)異,在包含短視頻、直播、語音輸入和智能助手等多種來源的Speech測試集上,F(xiàn)ireRedASR-LLM的CER相對領(lǐng)先的ASR服務(wù)提供商和Paraformer-Large降低了23.7%~40.0%。在歌詞識別場景中,CER更是降低了50.2%~66.7%。此外,F(xiàn)ireRedASR在中文方言(KeSpeech)和英語(LibriSpeech)測試集上也表現(xiàn)不俗,顯著優(yōu)于之前的開源SOTA模型,展現(xiàn)了其強大的語言適配能力和魯棒性。
4. 開源貢獻(xiàn)
FireRed團隊已將FireRedASR的模型和代碼全部開源,旨在為語音社區(qū)做出貢獻(xiàn),促進(jìn)ASR的應(yīng)用和端到端語音交互的發(fā)展。其開源地址為:https://github.com/FireRedTeam/FireRedASR。
5. 論文信息
論文標(biāo)題:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
論文地址:http://arxiv.org/abs/2501.14350
FireRedASR的卓越性能源于團隊的技術(shù)創(chuàng)新,具體細(xì)節(jié)可參考團隊公開的技術(shù)報告。該模型的開源,無疑將推動語音識別技術(shù)的發(fā)展,并為相關(guān)應(yīng)用帶來更多可能性。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺