AIGC動態歡迎閱讀
原標題:阿里開源語音處理模型 FunAudioLLM :50 種語言無縫翻譯,還能識別語音情緒
關鍵字:模型,語音,情感,技術,語言
文章來源:AI前線
內容字數:0字
內容摘要:
作者 | 趙明華
阿里巴巴通義實驗室近日發布并開源了 FunAudioLLM,這是一個旨在增強人與大型語言模型(LLMs)之間自然語音交互的框架,代表了語音處理領域的最新進展。
這一框架的核心是兩個創新模型:SenseVoice 和 CosyVoice。這兩個模型不僅在多語言語音識別、情感識別、音頻檢測和自然語音生成方面表現出色,還展示了極高的成熟度和廣泛的應用潛力。SenseVoice:精準多語言識別與情感辨識
● 多語言識別:采用超過 40 萬小時的數據訓練,支持超過 50 種語言,在中文和粵語上的識別準確度提升超過 50%。
● 情感辨識:具備出色的情感識別能力,在測試數據上達到或超過當前最佳情感識別模型的效果。
● 聲音檢測:能夠識別多種情緒和交互,如音樂、掌聲、笑聲、哭聲等。
● 模型架構:包括自動語音識別(ASR)、語言識別(LID)、情感識別(SER)以及音頻檢測(AED),能夠適應不同應用場景。CosyVoice:模擬音色與提升情感表現力
● 多語言合成:采用了總共超 15 萬小時的數據訓練,支持中英日粵韓 5 種語言的合成,合成效果顯著優于傳統語音合成
原文鏈接:阿里開源語音處理模型 FunAudioLLM :50 種語言無縫翻譯,還能識別語音情緒
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...