<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        FireRedASR

        AI工具8個月前更新 AI工具集
        993 0 0

        FireRedASR – 小紅書開源的自動語音識別模型

        FireRedASR是一款由小紅書推出的開源工業(yè)級自動語音識別(ASR)模型家族,支持普通話、各類中文方言以及英語。其在普通話ASR基準測試中取得了突破性的最佳性能(SOTA),并在歌詞識別方面展現(xiàn)了卓越的能力。

        FireRedASR是什么

        FireRedASR是小紅書開源的工業(yè)級自動語音識別(ASR)模型系列,能夠識別普通話、不同的中文方言以及英語。在普通話ASR的基準測試中,該模型家族達成了新的最佳水平(SOTA),并在歌詞識別的任務中表現(xiàn)出色。整體模型包括兩個主要版本:

        FireRedASR-LLM:采用Encoder-Adapter-LLM框架,利用大型語言模型(LLM)的強大能力,實現(xiàn)了SOTA的語音識別效果。在普通話的基準測試中,其平均字符錯誤率(CER)為3.05%,相較于之前的SOTA模型(3.33%)降低了8.4%。

        FireRedASR-AED:基于注意力機制的編碼器-解碼器(AED)架構(gòu),兼顧高性能與計算效率,旨在為基于LLM的語音模型提供有效的語音表示。在普通話基準測試中,平均CER為3.18%,超過了參數(shù)量超過12B的Seed-ASR模型。

        FireRedASR

        FireRedASR的主要功能

        • 高精度語音識別:FireRedASR包含兩個版本,F(xiàn)ireRedASR-LLM和FireRedASR-AED,其中FireRedASR-LLM專注于實現(xiàn)極高的語音識別精度。
        • 高效推理:FireRedASR-AED以經(jīng)典的注意力機制編碼器-解碼器架構(gòu)為基礎,參數(shù)量為1.1B,兼顧了高準確率和推理效率。
        • 多場景適配:FireRedASR在多種日常應用場景中表現(xiàn)出色,如短視頻、直播、語音輸入和智能助手等。與行業(yè)領先的ASR服務提供商及Paraformer-Large相比,F(xiàn)ireRedASR-LLM的CER降低了23.7%至40.0%。
        • 歌詞識別能力:在歌詞識別場合中,F(xiàn)ireRedASR-LLM的CER相對降低了50.2%至66.7%,展現(xiàn)了其強大的適用性。
        • 多語言支持:FireRedASR支持普通話,并在中文方言和英語的語音識別方面表現(xiàn)出色,進一步拓寬了其應用領域。
        • 開源與社區(qū)支持:FireRedASR的模型及推理代碼均已開源,推動了語音識別技術(shù)的社區(qū)驅(qū)動改進與學術(shù)研究。

        FireRedASR的技術(shù)原理

        • FireRedASR-LLM:該版本采用Encoder-Adapter-LLM框架,結(jié)合大型語言模型(LLM)的優(yōu)勢,以實現(xiàn)卓越的語音識別精度。包含三個核心組件:
          • Conformer基礎編碼器:負責提取語音特征并生成連續(xù)的語音表示。
          • 輕量級適配器:將編碼器輸出轉(zhuǎn)換為與LLM語義空間匹配的表示。
          • 預訓練文本LLM:基于Qwen2-7B-Instruct初始化,用于生成最終的文本輸出。
          • 訓練策略:在訓練過程中,編碼器和適配器可進行訓練,而LLM的大部分參數(shù)保持固定,僅通過低秩適應(LoRA)進行微調(diào),以確保有效的語音特征映射到LLM的語義空間,同時保留LLM的預訓練能力。
          • 輸入與推理:推理時,輸入包括提示(prompt)和語音,LLM執(zhí)行下一個標記預測,生成識別文本。
        • FireRedASR-AED:該版本基于經(jīng)典的注意力機制的編碼器-解碼器(AED)架構(gòu),兼顧高性能與計算效率。主要組成部分包括:
          • Conformer編碼器:基于Conformer模型處理語音特征,能同時捕捉局部和全局的依賴關(guān)系。
          • Transformer解碼器:采用Transformer架構(gòu)進行序列轉(zhuǎn)換,包含多頭自注意力模塊和前饋模塊。
          • 輸入特征:輸入特征為80維的log Mel濾波器組,經(jīng)過全局均值和方差歸一化處理。
          • 訓練數(shù)據(jù):訓練數(shù)據(jù)包含約7萬小時的高質(zhì)量普通話音頻數(shù)據(jù)和約1.1萬小時的英語音頻數(shù)據(jù)。

        FireRedASR的項目地址

        FireRedASR的應用場景

        • 智能語音助手:FireRedASR可用于開發(fā)智能語音助手,如智能家居控制及智能客服等。其高精度的語音識別能力能夠準確理解用戶的指令,提供流暢的交互體驗。
        • 視頻和直播:在短視頻和直播領域,F(xiàn)ireRedASR能夠?qū)崟r生成字幕,幫助觀眾更好地理解內(nèi)容。
        • 歌詞識別:在歌詞識別場景中,F(xiàn)ireRedASR表現(xiàn)尤為突出,廣泛應用于音樂平臺和卡拉OK等場合。
        • 語音輸入:FireRedASR可應用于語音輸入場景,如語音打字和語音筆記等。其高效的推理能力和高精度的識別效果顯著提升用戶的輸入效率。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产一区二区三区在线免费| 无码一区二区三区亚洲人妻 | 久久久久亚洲AV无码专区体验| 免费看美女午夜大片| 日日AV拍夜夜添久久免费| 亚洲午夜成人精品无码色欲| 香蕉97超级碰碰碰免费公| 亚洲精品中文字幕麻豆| 四虎成年永久免费网站 | 亚洲一卡2卡4卡5卡6卡残暴在线| 无码一区二区三区免费| 亚洲综合日韩中文字幕v在线 | 亚洲最新中文字幕| 亚洲成年人免费网站| 亚洲一卡二卡三卡| 女人18毛片免费观看| 国产亚洲精品欧洲在线观看| 国产极品美女高潮抽搐免费网站| 国产亚洲漂亮白嫩美女在线| 亚洲一区二区三区乱码A| 国产综合免费精品久久久| 国产亚洲AV无码AV男人的天堂| 日本免费一区二区三区| 中文字幕亚洲男人的天堂网络 | 免费人成网站永久| 亚洲国产日韩在线视频| 8x8x华人永久免费视频| 亚洲a∨无码男人的天堂| 国产aa免费视频| 成人黄网站片免费视频| 亚洲第一页在线视频| 日本无卡码免费一区二区三区| 九九九精品视频免费| 亚洲精品线在线观看| 国内自产少妇自拍区免费| 亚洲精品视频免费观看| 久久国产亚洲精品无码| 日本最新免费不卡二区在线| a级毛片无码免费真人久久 | 粉色视频免费入口| 亚洲av无码不卡|