AIGC動態歡迎閱讀
原標題:阿里音頻生成大模型一次發倆還開源!50種語言快速理解+5種語言語音生成,帶情感的那種
關鍵字:語音,情感,模型,音頻,
文章來源:量子位
內容字數:0字
內容摘要:
FunAudioLLM團隊 投稿量子位 | 公眾號 QbitAIOpenAI遲遲不上線GPT-4o語音助手,其它音頻生成大模型成果倒是一波接著一波發布,關鍵還是開源的。
剛剛,阿里通義實驗室也出手了——
最新發布開源語音大模型項目FunAudioLLM,而且一次包含兩個模型:SenseVoice和CosyVoice。
SenseVoice專注高精度多語言語音識別、情感辨識和音頻檢測,支持超過50種語言識別,效果優于Whisper模型,中文與粵語提升50%以上。
且情感識別能力強,支持音樂、掌聲、笑聲、哭聲、咳嗽、噴嚏等多種常見人機交互檢測,多方面測試拿下SOTA。
CosyVoice則專注自然語音生成,支持多語言、音色和情感控制,支持中英日粵韓5種語言的生成,效果顯著優于傳統語音生成模型。
僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細節,包括跨語種語音生成。
而且CosyVoice支持以富文本或自然語言的形式,對生成語音的情感、韻律進行細粒度的控制,生音頻在情感表現力上得到明顯提升。
話不多說,具體來看FunAudioLLM的用途以及效
原文鏈接:阿里音頻生成大模型一次發倆還開源!50種語言快速理解+5種語言語音生成,帶情感的那種
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...