阿里開源的語音生成大模型

產(chǎn)品名稱：CosyVoice 2.0
產(chǎn)品簡介：CosyVoice 2.0 是阿里巴巴通義實(shí)驗(yàn)室推出的CosyVoice語音生成大模型升級(jí)版，模型用有限標(biāo)量量化技術(shù)提高碼本利用率，簡化文本-語音語言模型架構(gòu)，推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發(fā)音準(zhǔn)確性、音色一致性、韻律和音質(zhì)上都有顯著提升。
詳細(xì)介紹：

CosyVoice 2.0是什么

CosyVoice 2.0 是阿里巴巴通義實(shí)驗(yàn)室推出的CosyVoice語音生成大模型升級(jí)版，模型用有限標(biāo)量量化技術(shù)提高碼本利用率，簡化文本-語音語言模型架構(gòu)，推出塊感知因果流匹配模型支持多樣的合成場景。CosyVoice 2 在發(fā)音準(zhǔn)確性、音色一致性、韻律和音質(zhì)上都有顯著提升，MOS評(píng)測分從5.4提升到5.53，支持流式推理，大幅降低首包合成延遲至150ms，適合實(shí)時(shí)語音合成場景。

阿里開源的語音生成大模型

CosyVoice 2.0的主要功能

超低延遲的流式語音合成：支持雙向流式語音合成，首包合成延遲可達(dá)150ms，適合實(shí)時(shí)應(yīng)用場景。
高準(zhǔn)確度的發(fā)音：相比前版本，發(fā)音錯(cuò)誤率顯著下降，尤其在處理繞口令、多音字、生僻字上表現(xiàn)突出。
音色一致性：在零樣本和跨語言語音合成中保持音色高度一致性，提升合成自然度。
自然體驗(yàn)：合成音頻的韻律、音質(zhì)、情感匹配得到提升，MOS評(píng)測分提高，接近商業(yè)化語音合成大模型。
多語言支持：在大規(guī)模多語言數(shù)據(jù)集上訓(xùn)練，實(shí)現(xiàn)跨語言的語音合成能力。

CosyVoice 2.0的技術(shù)原理

LLM backbone：基于預(yù)訓(xùn)練的文本基座大模型（如Qwen2.5-0.5B），替換原有的Text Encoder + random Transformer結(jié)構(gòu)，進(jìn)行文本的語義建模。
FSQ Speech Tokenizer：用全尺度量化（FSQ）替換向量量化（VQ），訓(xùn)練更大的碼本（6561），實(shí)現(xiàn)100%激活，提升發(fā)音準(zhǔn)確性。
離線和流式一體化建模方案：提出一體化建模方案，讓LLM和FM均支持流式推理，實(shí)現(xiàn)快速合成首包音頻。
指令可控的音頻生成能力升級(jí)：優(yōu)化基模型和指令模型的整合，支持情感、說話風(fēng)格和細(xì)粒度控制指令，新增中文指令處理能力。
多模態(tài)大模型技術(shù)：基于多模態(tài)大模型技術(shù)，實(shí)現(xiàn)語音識(shí)別、語音合成、自然語言理解等AI技術(shù)，提供“能聽、會(huì)說、懂你”式的智能人機(jī)交互體驗(yàn)。

CosyVoice 2.0的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://funaudiollm.github.io/cosyvoice2/
GitHub倉庫：https://github.com/FunAudioLLM/CosyVoice
技術(shù)論文：https://funaudiollm.github.io/pdf/CosyVoice_2.pdf

CosyVoice 2.0的應(yīng)用場景

智能助手和機(jī)器人：為智能助手和機(jī)器人提供自然流暢的語音輸出，提升用戶體驗(yàn)。
有聲讀物和音頻書籍：生成高質(zhì)量的有聲讀物，支持多種語言和方言，滿足不同用戶的需求。
視頻配音和解說：為視頻內(nèi)容提供配音服務(wù)，包括教育視頻、企業(yè)宣傳片、電影和電視劇的配音。
客戶服務(wù)和呼叫中心：在客戶服務(wù)中提供語音交互，提高服務(wù)效率和客戶滿意度。
語言學(xué)習(xí)和教育：輔助語言學(xué)習(xí)，提供標(biāo)準(zhǔn)發(fā)音的語音示范，幫助學(xué)習(xí)者提高發(fā)音準(zhǔn)確性。

閱讀原文