MinMo

MinMo – 阿里通義實驗室推出的多模態語音交互大模型

MinMo是阿里巴巴通義實驗室FunAudioLLM團隊推出的一款先進的多模態大模型，專注于實現無縫的語音交互體驗。它具有約80億個參數，通過多階段的訓練，基于140萬小時的多樣化語音數據和廣泛的語音任務進行深度學習。MinMo支持根據用戶的指令調整生成音頻的情感、方言和說話風格，甚至能夠模仿特定的音色，生成效率超過90%。此外，MinMo具備全雙工語音交互能力，語音到文本的延遲約為100毫秒，而全雙工的延遲理論上為600毫秒，實際情況約為800毫秒，從而實現用戶與系統之間的雙向實時溝通，使得多輪對話更加順暢自然。

MinMo是什么

MinMo是阿里巴巴通義實驗室FunAudioLLM團隊開發的一款多模態大模型，旨在提供無縫的語音交互體驗。該模型包含約80億個參數，經過多階段訓練，學習了140萬小時多樣化的語音數據，涵蓋各種語音任務。MinMo能夠根據用戶的需求調整生成音頻的情感、方言和說話風格，并模仿特定音色，確保生成效率超過90%。該模型支持全雙工語音交互，語音到文本的延遲約為100毫秒，而全雙工交互的理論延遲為600毫秒，實際約為800毫秒，使得用戶與系統之間能夠實現同時的雙向交流，從而使多輪對話更加流暢。

MinMo

MinMo的主要功能

實時語音對話：與用戶進行自然、流暢的語音對話，理解語音指令并給出相應的聲音回應。
多語言支持：具備多語言的語音識別和翻譯能力，能夠在多種語言環境中順暢溝通。
情感表達：能夠根據用戶指令生成具有特定情感（如快樂、悲傷、驚訝等）的語音。
方言和說話風格：支持生成特定方言（如四川話、粵語等）及特定的說話風格（如快速或慢速）的語音。
音色模仿：能夠模仿特定音色，使語音交互更加個性化和富有表現力。
全雙工交互：支持用戶與系統同時進行說話和聽取，實現更加自然和高效的多輪對話，語音到文本延遲約為100毫秒，全雙工延遲理論上為600毫秒，實際約為800毫秒。

MinMo的技術原理

多模態融合架構：
- 語音編碼器：基于預訓練的SenseVoice-large編碼器模塊，具有強大的語音理解能力，支持多語言語音識別、情感識別和音頻檢測。
- 輸入投影器：由兩層Transformer和一層CNN構成，負責維度對齊和降采樣。
- 大型語言模型：采用預訓練的Qwen2.5-7B-instruct模型，其在多個基準測試中表現出色。
- 輸出投影器：單層線性模塊，負責維度對齊。
- 語音標記語言模型：使用預訓練的CosyVoice 2 LM模塊，自回歸生成語音標記。
- Token2wav合成器：將語音標記轉換為mel頻譜圖，并進一步轉換為波形，支持實時音頻合成。
- 全雙工預測器：由單層Transformer和線性softmax輸出層構成，用于實時預測是否繼續響應或暫停處理用戶輸入。
多階段訓練策略：
- 語音到文本對齊：通過大量語音數據和相應的文本標注，訓練模型學音與文本之間的映射關系，確保模型能夠準確將語音轉換為文本，為后續的文本理解和生成奠定基礎。
- 文本到語音對齊：使模型學習如何將文本轉換為語音，生成自然流暢的語音表達，保持文本的語義信息和情感色彩。
- 語音到語音對齊：進一步提升模型對語音的理解和生成能力，使其能夠在語音層面直接進行交互，更好地處理語音的韻律、語調等特征。
- 雙工交互對齊：模擬真實的全雙工交互場景，訓練模型在同時接收和發送語音信號的情況下，準確進行語音識別和生成，優化模型在復雜交互環境下的表現。