Hibiki – Kyutai Labs 推出的實時語音翻譯模型
Hibiki是Kyutai Labs開發的一款開源解碼器模型,專注于實時語音翻譯。它能夠將一種語言的語音即時轉換為另一種語言的語音或文本,基于先進的多流語言模型架構,Hibiki同時處理源語言和目標語言的語音,聯動生成文本與音頻標記,從而實現語音到語音(S2ST)和語音到文本(S2TT)的翻譯功能。
Hibiki是什么
Hibiki是Kyutai Labs推出的一款開源解碼器模型,旨在實現實時的語言翻譯。它可以將一種語言的語音轉化為另一種語言的語音或文本。Hibiki依托多流語言模型架構,能夠同步處理源語音與目標語音,聯合生成文本和音頻標記,具備語音到語音(S2ST)和語音到文本(S2TT)的翻譯功能。通過弱監督學習方法,Hibiki根據文本翻譯系統的困惑度識別最佳的單詞級延遲,從而創建對齊的合成數據進行訓練。該模型在法語到英語的翻譯任務中表現優異,展現出高翻譯質量、說話者的音色保真度和自然度,同時支持批量翻譯和實時設備端部署,顯示了強大的實用潛力。
Hibiki的主要功能
- 實時語音到語音翻譯(S2ST):能夠將一種語言的語音實時翻譯為另一種語言的語音,保持說話者的音色和語調。
- 實時語音到文本翻譯(S2TT):將語音實時轉換為目標語言的文本,提供更多的使用場景選擇。
- 低延遲翻譯:通過實時積累上下文信息,逐塊生成翻譯內容,延遲極低,接近人類口譯的水平。
- 高保真度:生成的語音自然流暢,與源語音的音色和語調高度相似,用戶體驗接近專業人類口譯。
- 支持批量和實時部署:推理過程簡單高效,支持批量處理以及實時設備端部署,適合大規模應用。
Hibiki的技術原理
- 多流語言模型架構:
- 同步處理:同時接收源語音并生成目標語音,基于多流架構聯合建模兩個音頻流。
- 文本和音頻標記:模型預測文本與音頻標記的層次結構,實現語音到文本和語音到語音的翻譯。
- 因果音頻編解碼器:利用預訓練的因果音頻編解碼器(如Mimi)將語音編碼為低幀率的離散標記,支持實時流式處理。
- 弱監督學習與上下文對齊:
- 合成數據生成:基于翻譯單語音頻的轉錄文本重新合成目標語音,生成對齊的合成數據。
- 上下文對齊:利用現成文本翻譯系統的困惑度,計算單詞級對齊,確保目標語音的生成與源語音的上下文保持同步。
- 靜音插入與對齊感知TTS:通過插入靜音或利用對齊感知的TTS模型重新合成目標語音,確保目標語音的延遲符合實時翻譯的需求。
- 說話者相似性與分類器引導:
- 說話者相似性標記:對訓練數據進行說話者相似性分類標記,確保在推理時優先選擇高相似性樣本。
- 分類器引導:調整條件標簽的權重,增強模型對說話者相似性的控制,進一步提升語音的保真度。
- 高效的推理過程:
- 溫度采樣:運用溫度采樣技術,結合因果音頻編解碼器,實現流式輸入與輸出。
- 批量處理與實時部署:推理過程簡單高效,支持批量處理和實時設備端部署,適合大規模應用。
Hibiki的項目地址
- GitHub倉庫:https://github.com/kyutai-labs/hibiki
- HuggingFace模型庫:https://huggingface.co/collections/kyutai/hibiki
- arXiv技術論文:https://arxiv.org/pdf/2502.03382
Hibiki的應用場景
- 國際會議:在會議中實時翻譯不同語言的發言,幫助與會者即時理解內容。
- 在線教育:將教師的授課語音實時翻譯,幫助學生無障礙地學習。
- 旅游出行:實時翻譯導游的講解或與當地人的交流,提升旅游體驗。
- 新聞采訪:輔助記者快速翻譯采訪內容,提升報道的效率。
- 客戶服務:實現多語言客服溝通,提升客戶滿意度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...