通義百聆 – 阿里通義推出的企業(yè)級(jí)語音基座大模型
在企業(yè)級(jí)語音技術(shù)領(lǐng)域,阿里通義實(shí)驗(yàn)室最新推出的“通義百聆”正以其強(qiáng)大的實(shí)力重塑行業(yè)格局。這款集語音識(shí)別(Fun-ASR)與語音合成(Fun-CosyVoice)于一體的基座大模型,專為應(yīng)對(duì)復(fù)雜多變的語音應(yīng)用場(chǎng)景而生,旨在為企業(yè)提供前所未有的高效與精準(zhǔn)解決方案。
通義百聆:企業(yè)語音的革新引擎
通義百聆不僅僅是一個(gè)模型,更是阿里通義實(shí)驗(yàn)室在語音技術(shù)領(lǐng)域深度耕耘的集大成者。它巧妙地融合了 Fun-ASR 語音識(shí)別和 Fun-CosyVoice 語音合成兩大核心引擎,能夠從容應(yīng)對(duì)各種嚴(yán)苛的語音應(yīng)用環(huán)境。其核心優(yōu)勢(shì)在于創(chuàng)新的 Context 增強(qiáng)架構(gòu),這一架構(gòu)的引入,顯著解決了語音識(shí)別中的“幻覺”問題,大幅降低了誤識(shí)別率,并徹底消除了跨語種混淆的尷尬局面。此外,通義百聆還具備熱詞動(dòng)態(tài)注入能力,能夠精準(zhǔn)捕捉并識(shí)別行業(yè)內(nèi)的專業(yè)術(shù)語和特定詞匯,為企業(yè)定制化語音應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。
在語音合成方面,通義百聆更是亮點(diǎn)頻出。其 Fun-CosyVoice 3 模型在最新升級(jí)后,首包延遲降低了驚人的50%,中英混雜文本的識(shí)別準(zhǔn)確率翻倍,并且支持多達(dá)9種通用語言、18種方言口音的合成。更令人矚目的是其跨語種克隆能力,能夠?qū)崿F(xiàn)“零樣本”音色克隆,讓同一個(gè)聲音能夠流暢地演繹不同語言,并具備精細(xì)的情感控制,帶來前所未有的自然流暢語音合成體驗(yàn)。與此同時(shí),F(xiàn)un-ASR 模型的能力也得到了質(zhì)的飛躍。在嘈雜環(huán)境中,識(shí)別準(zhǔn)確率飆升至93%,并且支持31種語言的混說,覆蓋了廣泛的方言口音。新增的歌詞與說唱識(shí)別功能,以及流式識(shí)別首字延遲縮短至160ms,都預(yù)示著語音識(shí)別正朝著更精準(zhǔn)、更敏捷的方向發(fā)展。
通義百聆的核心能力解析
- 幻覺率的“終結(jié)者”:通過融合 CTC、LLM 和 RAG 的 Context 增強(qiáng)架構(gòu),通義百聆將 CTC 模型初步識(shí)別結(jié)果作為 LLM 的上下文信息,將幻覺率從高達(dá)78.5%的歷史高位,一舉壓低至10.7%,確保了語音輸出的穩(wěn)定與可靠。
- 告別串語種困擾:CTC 解碼后的文本被巧妙地輸入到 LLM 的 Prompt 中,有效避免了“自動(dòng)翻譯”的誤操作,例如,英文錄音將不再被錯(cuò)誤地輸出為中文,保證了語音內(nèi)容的準(zhǔn)確性。
- 高度定制化的“私人助理”:引入 RAG 機(jī)制,能夠動(dòng)態(tài)地注入企業(yè)專屬的術(shù)語庫(kù),無論是人名、品牌名稱,還是“ROI”、“私域拉新”等行業(yè)黑話,都能被精準(zhǔn)識(shí)別,并且配置過程僅需5分鐘,極大地提升了定制化效率。
- 跨越語言的“聲音魔術(shù)師”:憑借其多階段訓(xùn)練方法,通義百聆實(shí)現(xiàn)了強(qiáng)大的跨語種語音克隆能力。一個(gè)音色可以輕松駕馭多種語言,其聲音相似度達(dá)到了行業(yè)領(lǐng)先水平,讓溝通限。
- 全方位覆蓋的行業(yè)專家:基于數(shù)千萬小時(shí)的真實(shí)音頻數(shù)據(jù)進(jìn)行訓(xùn)練,通義百聆深入金融、教育、制造、互聯(lián)網(wǎng)、畜牧等10多個(gè)關(guān)鍵行業(yè),為各行各業(yè)提供量身定制的語音解決方案。
通義百聆背后的技術(shù)驅(qū)動(dòng)
- Fun-ASR 語音識(shí)別大模型:作為通義百聆的“耳朵”,F(xiàn)un-ASR 模型采用了尖端的 Context 增強(qiáng)架構(gòu)(CTC+LLM+RAG)。CTC 技術(shù)負(fù)責(zé)初步的語音到文本轉(zhuǎn)換,LLM 則利用上下文信息進(jìn)行深度優(yōu)化,從而將幻覺率從78.5%銳減至10.7%,保證了輸出的精準(zhǔn)性和穩(wěn)定性。RAG 機(jī)制的引入,更是使得模型能夠動(dòng)態(tài)地識(shí)別和理解行業(yè)特定術(shù)語,滿足企業(yè)多樣化的定制需求,配置過程高效便捷。
- Fun-CosyVoice 語音合成大模型:通義百聆的“聲音”由 Fun-CosyVoice 模型賦予。該模型基于創(chuàng)新的語音解耦訓(xùn)練方法,將音色、語速、語調(diào)等關(guān)鍵語音特征進(jìn)行分離和訓(xùn)練,再進(jìn)行智能組合,生成高度自然流暢的語音。其跨語種語音克隆能力尤為突出,通過多階段訓(xùn)練,一個(gè)音色即可實(shí)現(xiàn)“一音多語”,聲音相似度在業(yè)界遙遙領(lǐng)先,為跨文化溝通提供了無限可能。
通義百聆的創(chuàng)新步伐
- 項(xiàng)目官網(wǎng):Fun-ASR 、 Fun-CosyVoice
通義百聆賦能千行百業(yè)
- 金融行業(yè):在智能客服、語音交易和風(fēng)險(xiǎn)監(jiān)控等環(huán)節(jié),通義百聆的運(yùn)用將顯著提升服務(wù)效率,并強(qiáng)化風(fēng)險(xiǎn)防控能力。
- 教育行業(yè):通過賦能在線教育平臺(tái)、智能輔導(dǎo)系統(tǒng)以及語音作業(yè)批改,通義百聆致力于優(yōu)化教學(xué)與學(xué)習(xí)體驗(yàn),促進(jìn)教育公平。
- 制造業(yè):在工業(yè)設(shè)備的語音控制、生產(chǎn)流程的實(shí)時(shí)監(jiān)控以及產(chǎn)品質(zhì)量的檢測(cè)方面,通義百聆的應(yīng)用將有效提升生產(chǎn)效率和操作安全性。
- 互聯(lián)網(wǎng)行業(yè):從語音搜索的精準(zhǔn)響應(yīng),到智能助手的便捷交互,再到內(nèi)容創(chuàng)作的多樣化,通義百聆將全面增強(qiáng)用戶體驗(yàn),豐富內(nèi)容生態(tài)。
- 畜牧行業(yè):在智能養(yǎng)殖系統(tǒng)、動(dòng)物健康監(jiān)測(cè)以及養(yǎng)殖環(huán)境的管理方面,通義百聆的應(yīng)用將助力提升養(yǎng)殖效率,并促進(jìn)動(dòng)物福利的改善。

粵公網(wǎng)安備 44011502001135號(hào)