MooER

MooER是摩爾線程推出的首個基于國產全功能GPU訓練的開源音頻理解大模型。具備中文和英文的語音識別能力，并且能夠進行中譯英的語音翻譯，MooER在Covost2中譯英測試集中取得了25.2的BLEU分數，接近工業級水平。摩爾線程的AI團隊已經開源了推理代碼和5000小時的訓練模型，并計劃進一步開源訓練代碼和8萬小時訓練模型，推動AI語音技術的發展。

MooER是什么

MooER是由摩爾線程開發的一款開源音頻理解大模型，首創于基于國產全功能GPU訓練的領域。它不僅支持中文和英文的語音轉文本功能，還具備將中文語音翻譯成英文文本的能力。MooER在多個測試中表現優異，顯示出其接近工業級的效果。該模型的推理代碼及部分訓練模型已經開源，旨在促進AI語音技術的進一步研究與應用。

MooER

MooER的主要功能

語音識別：支持中文和英文的語音轉文本，方便用戶獲取語音內容。
語音翻譯：能夠將中文語音翻譯成英文文本，適合多語言交流。
高效訓練：利用摩爾線程的智算平臺，快速處理和訓練大量數據。
開源模型：推理代碼和部分訓練模型已公開，便于開發者和研究者使用與研究。

MooER的技術原理

深度學習架構：MooER采用深度學習技術，特別是神經網絡，來分析和理解語音信號。
端到端訓練：模型直接從原始語音信號生成文本輸出，簡化了傳統語音識別系統的多個模塊。
Encoder-Adapter-Decoder結構：
- Encoder：將輸入的語音信號轉化為高級特征表示。
- Adapter：優化模型以適應特定任務，提高泛化能力。
- Decoder（Large Language Model，LLM）：根據特征生成最終的文本輸出。
LoRA技術：采用低秩適應（LoRA）技術，這是一種高效的模型微調方法，通過更新少量參數提升訓練效果。
偽標簽訓練：在訓練中使用模型自身的預測作為偽標簽，以增強學習能力。
多語言支持：MooER能夠處理中文和英文的語音識別及中譯英翻譯，展現出其多語言處理能力。