阿里開源語音處理模型 FunAudioLLM ：50 種語言無縫翻譯，還能識別語音情緒

AIGC動態1年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：阿里開源語音處理模型 FunAudioLLM ：50 種語言無縫翻譯，還能識別語音情緒
關鍵字：模型,語音,情感,技術,語言
文章來源：AI前線
內容字數：0字

內容摘要：

作者 | 趙明華
阿里巴巴通義實驗室近日發布并開源了 FunAudioLLM，這是一個旨在增強人與大型語言模型（LLMs）之間自然語音交互的框架，代表了語音處理領域的最新進展。
這一框架的核心是兩個創新模型：SenseVoice 和 CosyVoice。這兩個模型不僅在多語言語音識別、情感識別、音頻檢測和自然語音生成方面表現出色，還展示了極高的成熟度和廣泛的應用潛力。SenseVoice：精準多語言識別與情感辨識
● 多語言識別：采用超過 40 萬小時的數據訓練，支持超過 50 種語言，在中文和粵語上的識別準確度提升超過 50%。
● 情感辨識：具備出色的情感識別能力，在測試數據上達到或超過當前最佳情感識別模型的效果。
● 聲音檢測：能夠識別多種情緒和交互，如音樂、掌聲、笑聲、哭聲等。
● 模型架構：包括自動語音識別（ASR）、語言識別（LID）、情感識別（SER）以及音頻檢測（AED），能夠適應不同應用場景。CosyVoice：模擬音色與提升情感表現力
● 多語言合成：采用了總共超 15 萬小時的數據訓練，支持中英日粵韓 5 種語言的合成，合成效果顯著優于傳統語音合成

原文鏈接：阿里開源語音處理模型 FunAudioLLM ：50 種語言無縫翻譯，還能識別語音情緒