產(chǎn)品名稱:CosyVoice 2.0
產(chǎn)品簡介:CosyVoice 2.0 是阿里巴巴通義實驗室推出的CosyVoice語音生成大模型升級版,模型用有限標(biāo)量量化技術(shù)提高碼本利用率,簡化文本-語音語言模型架構(gòu),推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發(fā)音準(zhǔn)確性、音色一致性、韻律和音質(zhì)上都有顯著提升。
詳細介紹:
CosyVoice 2.0是什么
CosyVoice 2.0 是阿里巴巴通義實驗室推出的CosyVoice語音生成大模型升級版,模型用有限標(biāo)量量化技術(shù)提高碼本利用率,簡化文本-語音語言模型架構(gòu),推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發(fā)音準(zhǔn)確性、音色一致性、韻律和音質(zhì)上都有顯著提升,MOS評測分從5.4提升到5.53,支持流式推理,大幅降低首包合成延遲至150ms,適合實時語音合成場景。
CosyVoice 2.0的主要功能
- 超低延遲的流式語音合成:支持雙向流式語音合成,首包合成延遲可達150ms,適合實時應(yīng)用場景。
- 高準(zhǔn)確度的發(fā)音:相比前版本,發(fā)音錯誤率顯著下降,尤其在處理繞口令、多音字、生僻字上表現(xiàn)突出。
- 音色一致性:在零樣本和跨語言語音合成中保持音色高度一致性,提升合成自然度。
- 自然體驗:合成音頻的韻律、音質(zhì)、情感匹配得到提升,MOS評測分提高,接近商業(yè)化語音合成大模型。
- 多語言支持:在大規(guī)模多語言數(shù)據(jù)集上訓(xùn)練,實現(xiàn)跨語言的語音合成能力。
CosyVoice 2.0的技術(shù)原理
- LLM backbone:基于預(yù)訓(xùn)練的文本基座大模型(如Qwen2.5-0.5B),替換原有的Text Encoder + random Transformer結(jié)構(gòu),進行文本的語義建模。
- FSQ Speech Tokenizer:用全尺度量化(FSQ)替換向量量化(VQ),訓(xùn)練更大的碼本(6561),實現(xiàn)100%激活,提升發(fā)音準(zhǔn)確性。
- 離線和流式一體化建模方案:提出一體化建模方案,讓LLM和FM均支持流式推理,實現(xiàn)快速合成首包音頻。
- 指令可控的音頻生成能力升級:優(yōu)化基模型和指令模型的整合,支持情感、說話風(fēng)格和細粒度控制指令,新增中文指令處理能力。
- 多模態(tài)大模型技術(shù):基于多模態(tài)大模型技術(shù),實現(xiàn)語音識別、語音合成、自然語言理解等AI技術(shù),提供“能聽、會說、懂你”式的智能人機交互體驗。
CosyVoice 2.0的項目地址
- 項目官網(wǎng):https://funaudiollm.github.io/cosyvoice2/
- GitHub倉庫:https://github.com/FunAudioLLM/CosyVoice
- 技術(shù)論文:https://funaudiollm.github.io/pdf/CosyVoice_2.pdf
CosyVoice 2.0的應(yīng)用場景
- 智能助手和機器人:為智能助手和機器人提供自然流暢的語音輸出,提升用戶體驗。
- 有聲讀物和音頻書籍:生成高質(zhì)量的有聲讀物,支持多種語言和方言,滿足不同用戶的需求。
- 視頻配音和解說:為視頻內(nèi)容提供配音服務(wù),包括教育視頻、企業(yè)宣傳片、電影和電視劇的配音。
- 客戶服務(wù)和呼叫中心:在客戶服務(wù)中提供語音交互,提高服務(wù)效率和客戶滿意度。
- 語言學(xué)習(xí)和教育:輔助語言學(xué)習(xí),提供標(biāo)準(zhǔn)發(fā)音的語音示范,幫助學(xué)習(xí)者提高發(fā)音準(zhǔn)確性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...