阿里開源語(yǔ)音處理模型 FunAudioLLM :50 種語(yǔ)言無(wú)縫翻譯,還能識(shí)別語(yǔ)音情緒
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:阿里開源語(yǔ)音處理模型 FunAudioLLM :50 種語(yǔ)言無(wú)縫翻譯,還能識(shí)別語(yǔ)音情緒
關(guān)鍵字:模型,語(yǔ)音,情感,技術(shù),語(yǔ)言
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者 | 趙明華
阿里巴巴通義實(shí)驗(yàn)室近日發(fā)布并開源了 FunAudioLLM,這是一個(gè)旨在增強(qiáng)人與大型語(yǔ)言模型(LLMs)之間自然語(yǔ)音交互的框架,代表了語(yǔ)音處理領(lǐng)域的最新進(jìn)展。
這一框架的核心是兩個(gè)創(chuàng)新模型:SenseVoice 和 CosyVoice。這兩個(gè)模型不僅在多語(yǔ)言語(yǔ)音識(shí)別、情感識(shí)別、音頻檢測(cè)和自然語(yǔ)音生成方面表現(xiàn)出色,還展示了極高的成熟度和廣泛的應(yīng)用潛力。SenseVoice:精準(zhǔn)多語(yǔ)言識(shí)別與情感辨識(shí)
● 多語(yǔ)言識(shí)別:采用超過 40 萬(wàn)小時(shí)的數(shù)據(jù)訓(xùn)練,支持超過 50 種語(yǔ)言,在中文和粵語(yǔ)上的識(shí)別準(zhǔn)確度提升超過 50%。
● 情感辨識(shí):具備出色的情感識(shí)別能力,在測(cè)試數(shù)據(jù)上達(dá)到或超過當(dāng)前最佳情感識(shí)別模型的效果。
● 聲音檢測(cè):能夠識(shí)別多種情緒和交互,如音樂、掌聲、笑聲、哭聲等。
● 模型架構(gòu):包括自動(dòng)語(yǔ)音識(shí)別(ASR)、語(yǔ)言識(shí)別(LID)、情感識(shí)別(SER)以及音頻檢測(cè)(AED),能夠適應(yīng)不同應(yīng)用場(chǎng)景。CosyVoice:模擬音色與提升情感表現(xiàn)力
● 多語(yǔ)言合成:采用了總共超 15 萬(wàn)小時(shí)的數(shù)據(jù)訓(xùn)練,支持中英日粵韓 5 種語(yǔ)言的合成,合成效果顯著優(yōu)于傳統(tǒng)語(yǔ)音合成
原文鏈接:阿里開源語(yǔ)音處理模型 FunAudioLLM :50 種語(yǔ)言無(wú)縫翻譯,還能識(shí)別語(yǔ)音情緒
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。