Gummy是通義實驗室于2024年云棲大會上發布的一款創新型端到端語音翻譯大模型。其獨特之處在于能夠實時流式生成語音識別與翻譯結果,支持包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十余種語言的語音輸入,輕松轉換為目標語言。Gummy利用先進的技術,顯著降低翻譯延遲,并提升翻譯質量,已在多個測試集上取得尖端的成果。同時,該模型具備多語言混合翻譯、術語干預及領域提示等多種商業化應用能力,能夠在跨國會議等多樣化場景中無縫翻譯各國語言。
Gummy是什么
Gummy是通義實驗室在2024年云棲大會上推出的一個全新端到端語音翻譯大模型。該模型的設計旨在實時生成語音識別與翻譯結果,支持多達十幾種語言的語音輸入,并將其流暢地翻譯成所需目標語言。Gummy通過端到端架構有效減少了翻譯延遲,提高了翻譯質量,取得了在多個標準測試集上的SOTA(State of the Art)表現。其多語言混合翻譯及術語調整能力,使其在國際場合中表現出色,無需提前指定源語種即可實現高效翻譯。
Gummy的主要功能
- 多語言支持:Gummy能夠處理包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語和西班牙語等多種語言的語音輸入,實時翻譯成目標語言。
- 端到端翻譯:Gummy采用了端到端的設計,直接將語音轉換為目標語言,簡化了傳統翻譯系統的復雜流程。
- 低延遲翻譯:該模型的翻譯延遲低于0.5秒,速度甚至超過人類同聲傳譯的反應時間。
- 高質量翻譯:在多個公認的開源測試集上,Gummy展現出頂尖的翻譯質量,達到SOTA水平。
- 流式翻譯:Gummy支持實時逐句翻譯,適合各種實時交流場景。
Gummy的技術原理
- 端到端設計:Gummy通過端到端架構將源語言的語音直接映射為目標語言的文本輸出,極大地簡化了開發流程,提升了系統性能。
- 深度神經網絡:基于深度學習技術,尤其是深度神經網絡,Gummy能夠高效地學音與文本之間的復雜關系。
- 實時流式處理:支持同步進行語音識別和翻譯,以實現邊聽邊翻譯的功能。
- wait & predict機制:模型內部采用獨特機制,自動判斷翻譯時機,以優化翻譯質量和延遲。
Gummy的項目地址
- 項目官網:tongyi.aliyun.com,目前Gummy的部分功能已在通義APP上上線,用戶可下載體驗。
Gummy的應用場景
- 實時語音翻譯:Gummy能夠在會議中實時翻譯發言,為國際會議和多語言談判提供同聲傳譯服務。
- 教育和培訓:在教育領域,Gummy輔助語言學習,實時翻譯多語言教學內容,幫助師生克服語言障礙。
- 旅游和導航:為旅行者提供實時語音翻譯,助力他們與不同語言的當地人進行交流,或在導航過程中提供多語言指引。
- 客戶服務:在客戶服務領域,Gummy作為多語言客服助手,提供快速而準確的語言支持,提升客戶的滿意度。
- 醫療咨詢:在醫療領域,Gummy提供多語言的醫療咨詢翻譯服務,促進醫生與患者之間的有效溝通。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...