阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種
關鍵字：語音,情感,模型,音頻,
文章來源：量子位
內容字數：0字

內容摘要：

FunAudioLLM團隊投稿量子位 | 公眾號 QbitAIOpenAI遲遲不上線GPT-4o語音助手，其它音頻生成大模型成果倒是一波接著一波發布，關鍵還是開源的。
剛剛，阿里通義實驗室也出手了——
最新發布開源語音大模型項目FunAudioLLM，而且一次包含兩個模型：SenseVoice和CosyVoice。
SenseVoice專注高精度多語言語音識別、情感辨識和音頻檢測，支持超過50種語言識別，效果優于Whisper模型，中文與粵語提升50%以上。
且情感識別能力強，支持音樂、掌聲、笑聲、哭聲、咳嗽、噴嚏等多種常見人機交互檢測，多方面測試拿下SOTA。
CosyVoice則專注自然語音生成，支持多語言、音色和情感控制，支持中英日粵韓5種語言的生成，效果顯著優于傳統語音生成模型。
僅需要3~10s的原始音頻，CosyVoice即可生成模擬音色，甚至包括韻律、情感等細節，包括跨語種語音生成。
而且CosyVoice支持以富文本或自然語言的形式，對生成語音的情感、韻律進行細粒度的控制，生音頻在情感表現力上得到明顯提升。
話不多說，具體來看FunAudioLLM的用途以及效

原文鏈接：阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 事件 # 情感 # 模型 # 語音 # 音頻

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

AIGC動態歡迎閱讀

內容摘要：

聯系作者

賈佳亞團隊新作：10k數據讓大模型數學能力超GPT-4

現場Live震撼！OmAgent框架強勢開源！行業應用已全面開花

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

AIGC動態歡迎閱讀

內容摘要：

聯系作者

賈佳亞團隊新作：10k數據讓大模型數學能力超GPT-4

現場Live震撼！OmAgent框架強勢開源！行業應用已全面開花

相關文章

暫無評論

ChatGPT

玩虛擬模特？

阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

現場Live震撼！OmAgent框架強勢開源！行業應用已全面開花