產品名稱:CosyVoice 2.0
產品簡介:CosyVoice 2.0 是阿里巴巴通義實驗室推出的CosyVoice語音生成大模型升級版,模型用有限標量量化技術提高碼本利用率,簡化文本-語音語言模型架構,推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發音準確性、音色一致性、韻律和音質上都有顯著提升。
詳細介紹:
CosyVoice 2.0是什么
CosyVoice 2.0 是阿里巴巴通義實驗室推出的CosyVoice語音生成大模型升級版,模型用有限標量量化技術提高碼本利用率,簡化文本-語音語言模型架構,推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發音準確性、音色一致性、韻律和音質上都有顯著提升,MOS評測分從5.4提升到5.53,支持流式推理,大幅降低首包合成延遲至150ms,適合實時語音合成場景。
CosyVoice 2.0的主要功能
- 超低延遲的流式語音合成:支持雙向流式語音合成,首包合成延遲可達150ms,適合實時應用場景。
- 高準確度的發音:相比前版本,發音錯誤率顯著下降,尤其在處理繞口令、多音字、生僻字上表現突出。
- 音色一致性:在零樣本和跨語言語音合成中保持音色高度一致性,提升合成自然度。
- 自然體驗:合成音頻的韻律、音質、情感匹配得到提升,MOS評測分提高,接近商業化語音合成大模型。
- 多語言支持:在大規模多語言數據集上訓練,實現跨語言的語音合成能力。
CosyVoice 2.0的技術原理
- LLM backbone:基于預訓練的文本基座大模型(如Qwen2.5-0.5B),替換原有的Text Encoder + random Transformer結構,進行文本的語義建模。
- FSQ Speech Tokenizer:用全尺度量化(FSQ)替換向量量化(VQ),訓練更大的碼本(6561),實現100%激活,提升發音準確性。
- 離線和流式一體化建模方案:提出一體化建模方案,讓LLM和FM均支持流式推理,實現快速合成首包音頻。
- 指令可控的音頻生成能力升級:優化基模型和指令模型的整合,支持情感、說話風格和細粒度控制指令,新增中文指令處理能力。
- 多模態大模型技術:基于多模態大模型技術,實現語音識別、語音合成、自然語言理解等AI技術,提供“能聽、會說、懂你”式的智能人機交互體驗。
CosyVoice 2.0的項目地址
- 項目官網:https://funaudiollm.github.io/cosyvoice2/
- GitHub倉庫:https://github.com/FunAudioLLM/CosyVoice
- 技術論文:https://funaudiollm.github.io/pdf/CosyVoice_2.pdf
CosyVoice 2.0的應用場景
- 智能助手和機器人:為智能助手和機器人提供自然流暢的語音輸出,提升用戶體驗。
- 有聲讀物和音頻書籍:生成高質量的有聲讀物,支持多種語言和方言,滿足不同用戶的需求。
- 視頻配音和解說:為視頻內容提供配音服務,包括教育視頻、企業宣傳片、電影和電視劇的配音。
- 客戶服務和呼叫中心:在客戶服務中提供語音交互,提高服務效率和客戶滿意度。
- 語言學習和教育:輔助語言學習,提供標準發音的語音示范,幫助學習者提高發音準確性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...