FireRedASR

FireRedASR – 小紅書開源的自動語音識別模型

FireRedASR是一款由小紅書推出的開源工業(yè)級自動語音識別（ASR）模型家族，支持普通話、各類中文方言以及英語。其在普通話ASR基準測試中取得了突破性的最佳性能（SOTA），并在歌詞識別方面展現(xiàn)了卓越的能力。

FireRedASR是什么

FireRedASR是小紅書開源的工業(yè)級自動語音識別（ASR）模型系列，能夠識別普通話、不同的中文方言以及英語。在普通話ASR的基準測試中，該模型家族達成了新的最佳水平（SOTA），并在歌詞識別的任務中表現(xiàn)出色。整體模型包括兩個主要版本：

FireRedASR-LLM：采用Encoder-Adapter-LLM框架，利用大型語言模型（LLM）的強大能力，實現(xiàn)了SOTA的語音識別效果。在普通話的基準測試中，其平均字符錯誤率（CER）為3.05%，相較于之前的SOTA模型（3.33%）降低了8.4%。

FireRedASR-AED：基于注意力機制的編碼器-解碼器（AED）架構，兼顧高性能與計算效率，旨在為基于LLM的語音模型提供有效的語音表示。在普通話基準測試中，平均CER為3.18%，超過了參數(shù)量超過12B的Seed-ASR模型。

FireRedASR

FireRedASR的主要功能

高精度語音識別：FireRedASR包含兩個版本，F(xiàn)ireRedASR-LLM和FireRedASR-AED，其中FireRedASR-LLM專注于實現(xiàn)極高的語音識別精度。
高效推理：FireRedASR-AED以經典的注意力機制編碼器-解碼器架構為基礎，參數(shù)量為1.1B，兼顧了高準確率和推理效率。
多場景適配：FireRedASR在多種日常應用場景中表現(xiàn)出色，如短視頻、直播、語音輸入和智能助手等。與行業(yè)領先的ASR服務提供商及Paraformer-Large相比，F(xiàn)ireRedASR-LLM的CER降低了23.7%至40.0%。
歌詞識別能力：在歌詞識別場合中，F(xiàn)ireRedASR-LLM的CER相對降低了50.2%至66.7%，展現(xiàn)了其強大的適用性。
多語言支持：FireRedASR支持普通話，并在中文方言和英語的語音識別方面表現(xiàn)出色，進一步拓寬了其應用領域。
開源與社區(qū)支持：FireRedASR的模型及推理代碼均已開源，推動了語音識別技術的社區(qū)驅動改進與學術研究。

FireRedASR的技術原理

FireRedASR-LLM：該版本采用Encoder-Adapter-LLM框架，結合大型語言模型（LLM）的優(yōu)勢，以實現(xiàn)卓越的語音識別精度。包含三個核心組件：
- Conformer基礎編碼器：負責提取語音特征并生成連續(xù)的語音表示。
- 輕量級適配器：將編碼器輸出轉換為與LLM語義空間匹配的表示。
- 預訓練文本LLM：基于Qwen2-7B-Instruct初始化，用于生成最終的文本輸出。
- 訓練策略：在訓練過程中，編碼器和適配器可進行訓練，而LLM的大部分參數(shù)保持固定，僅通過低秩適應（LoRA）進行微調，以確保有效的語音特征映射到LLM的語義空間，同時保留LLM的預訓練能力。
- 輸入與推理：推理時，輸入包括提示（prompt）和語音，LLM執(zhí)行下一個標記預測，生成識別文本。
FireRedASR-AED：該版本基于經典的注意力機制的編碼器-解碼器（AED）架構，兼顧高性能與計算效率。主要組成部分包括：
- Conformer編碼器：基于Conformer模型處理語音特征，能同時捕捉局部和全局的依賴關系。
- Transformer解碼器：采用Transformer架構進行序列轉換，包含多頭自注意力模塊和前饋模塊。
- 輸入特征：輸入特征為80維的log Mel濾波器組，經過全局均值和方差歸一化處理。
- 訓練數(shù)據(jù)：訓練數(shù)據(jù)包含約7萬小時的高質量普通話音頻數(shù)據(jù)和約1.1萬小時的英語音頻數(shù)據(jù)。

FireRedASR的項目地址

Github倉庫：https://github.com/FireRedTeam/FireRedASR
HuggingFace模型庫：https://huggingface.co/FireRedTeam/FireRedASR-AED-L
arXiv技術論文：https://arxiv.org/pdf/2501.14350

FireRedASR的應用場景

智能語音助手：FireRedASR可用于開發(fā)智能語音助手，如智能家居控制及智能客服等。其高精度的語音識別能力能夠準確理解用戶的指令，提供流暢的交互體驗。
視頻和直播：在短視頻和直播領域，F(xiàn)ireRedASR能夠實時生成字幕，幫助觀眾更好地理解內容。
歌詞識別：在歌詞識別場景中，F(xiàn)ireRedASR表現(xiàn)尤為突出，廣泛應用于音樂平臺和卡拉OK等場合。
語音輸入：FireRedASR可應用于語音輸入場景，如語音打字和語音筆記等。其高效的推理能力和高精度的識別效果顯著提升用戶的輸入效率。

閱讀原文

# AI工具 # AI項目和框架 # 個性化推薦引擎 # 情感分析工具 # 智能對話系統(tǒng)# 自然語言處理 # 語音識別助手

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

FireRedASR

FireRedASR – 小紅書開源的自動語音識別模型

FireRedASR是什么

FireRedASR的主要功能

FireRedASR的技術原理

FireRedASR的項目地址

FireRedASR的應用場景

AI Chat-avatar

Airweave

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

FireRedASR

FireRedASR – 小紅書開源的自動語音識別模型

FireRedASR是什么

FireRedASR的主要功能

FireRedASR的技術原理

FireRedASR的項目地址

FireRedASR的應用場景

AI Chat-avatar

Airweave

相關文章

暫無評論

ChatGPT

玩虛擬模特？

玩虛擬模特？