FireRedASR – 小紅書開源的自動語音識別模型
FireRedASR是一款由小紅書推出的開源工業(yè)級自動語音識別(ASR)模型家族,支持普通話、各類中文方言以及英語。其在普通話ASR基準測試中取得了突破性的最佳性能(SOTA),并在歌詞識別方面展現(xiàn)了卓越的能力。
FireRedASR是什么
FireRedASR是小紅書開源的工業(yè)級自動語音識別(ASR)模型系列,能夠識別普通話、不同的中文方言以及英語。在普通話ASR的基準測試中,該模型家族達成了新的最佳水平(SOTA),并在歌詞識別的任務中表現(xiàn)出色。整體模型包括兩個主要版本:
FireRedASR-LLM:采用Encoder-Adapter-LLM框架,利用大型語言模型(LLM)的強大能力,實現(xiàn)了SOTA的語音識別效果。在普通話的基準測試中,其平均字符錯誤率(CER)為3.05%,相較于之前的SOTA模型(3.33%)降低了8.4%。
FireRedASR-AED:基于注意力機制的編碼器-解碼器(AED)架構(gòu),兼顧高性能與計算效率,旨在為基于LLM的語音模型提供有效的語音表示。在普通話基準測試中,平均CER為3.18%,超過了參數(shù)量超過12B的Seed-ASR模型。
FireRedASR的主要功能
- 高精度語音識別:FireRedASR包含兩個版本,F(xiàn)ireRedASR-LLM和FireRedASR-AED,其中FireRedASR-LLM專注于實現(xiàn)極高的語音識別精度。
- 高效推理:FireRedASR-AED以經(jīng)典的注意力機制編碼器-解碼器架構(gòu)為基礎,參數(shù)量為1.1B,兼顧了高準確率和推理效率。
- 多場景適配:FireRedASR在多種日常應用場景中表現(xiàn)出色,如短視頻、直播、語音輸入和智能助手等。與行業(yè)領先的ASR服務提供商及Paraformer-Large相比,F(xiàn)ireRedASR-LLM的CER降低了23.7%至40.0%。
- 歌詞識別能力:在歌詞識別場合中,F(xiàn)ireRedASR-LLM的CER相對降低了50.2%至66.7%,展現(xiàn)了其強大的適用性。
- 多語言支持:FireRedASR支持普通話,并在中文方言和英語的語音識別方面表現(xiàn)出色,進一步拓寬了其應用領域。
- 開源與社區(qū)支持:FireRedASR的模型及推理代碼均已開源,推動了語音識別技術(shù)的社區(qū)驅(qū)動改進與學術(shù)研究。
FireRedASR的技術(shù)原理
- FireRedASR-LLM:該版本采用Encoder-Adapter-LLM框架,結(jié)合大型語言模型(LLM)的優(yōu)勢,以實現(xiàn)卓越的語音識別精度。包含三個核心組件:
- Conformer基礎編碼器:負責提取語音特征并生成連續(xù)的語音表示。
- 輕量級適配器:將編碼器輸出轉(zhuǎn)換為與LLM語義空間匹配的表示。
- 預訓練文本LLM:基于Qwen2-7B-Instruct初始化,用于生成最終的文本輸出。
- 訓練策略:在訓練過程中,編碼器和適配器可進行訓練,而LLM的大部分參數(shù)保持固定,僅通過低秩適應(LoRA)進行微調(diào),以確保有效的語音特征映射到LLM的語義空間,同時保留LLM的預訓練能力。
- 輸入與推理:推理時,輸入包括提示(prompt)和語音,LLM執(zhí)行下一個標記預測,生成識別文本。
- FireRedASR-AED:該版本基于經(jīng)典的注意力機制的編碼器-解碼器(AED)架構(gòu),兼顧高性能與計算效率。主要組成部分包括:
- Conformer編碼器:基于Conformer模型處理語音特征,能同時捕捉局部和全局的依賴關(guān)系。
- Transformer解碼器:采用Transformer架構(gòu)進行序列轉(zhuǎn)換,包含多頭自注意力模塊和前饋模塊。
- 輸入特征:輸入特征為80維的log Mel濾波器組,經(jīng)過全局均值和方差歸一化處理。
- 訓練數(shù)據(jù):訓練數(shù)據(jù)包含約7萬小時的高質(zhì)量普通話音頻數(shù)據(jù)和約1.1萬小時的英語音頻數(shù)據(jù)。
FireRedASR的項目地址
- Github倉庫:https://github.com/FireRedTeam/FireRedASR
- HuggingFace模型庫:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.14350
FireRedASR的應用場景
- 智能語音助手:FireRedASR可用于開發(fā)智能語音助手,如智能家居控制及智能客服等。其高精度的語音識別能力能夠準確理解用戶的指令,提供流暢的交互體驗。
- 視頻和直播:在短視頻和直播領域,F(xiàn)ireRedASR能夠?qū)崟r生成字幕,幫助觀眾更好地理解內(nèi)容。
- 歌詞識別:在歌詞識別場景中,F(xiàn)ireRedASR表現(xiàn)尤為突出,廣泛應用于音樂平臺和卡拉OK等場合。
- 語音輸入:FireRedASR可應用于語音輸入場景,如語音打字和語音筆記等。其高效的推理能力和高精度的識別效果顯著提升用戶的輸入效率。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...