Hibiki – Kyutai Labs 推出的實時語音翻譯模型
Hibiki是Kyutai Labs開發(fā)的一款開源解碼器模型,專注于實時語音翻譯。它能夠?qū)⒁环N語言的語音即時轉(zhuǎn)換為另一種語言的語音或文本,基于先進的多流語言模型架構(gòu),Hibiki同時處理源語言和目標語言的語音,聯(lián)動生成文本與音頻標記,從而實現(xiàn)語音到語音(S2ST)和語音到文本(S2TT)的翻譯功能。
Hibiki是什么
Hibiki是Kyutai Labs推出的一款開源解碼器模型,旨在實現(xiàn)實時的語言翻譯。它可以將一種語言的語音轉(zhuǎn)化為另一種語言的語音或文本。Hibiki依托多流語言模型架構(gòu),能夠同步處理源語音與目標語音,聯(lián)合生成文本和音頻標記,具備語音到語音(S2ST)和語音到文本(S2TT)的翻譯功能。通過弱監(jiān)督學習方法,Hibiki根據(jù)文本翻譯系統(tǒng)的困惑度識別最佳的單詞級延遲,從而創(chuàng)建對齊的合成數(shù)據(jù)進行訓練。該模型在法語到英語的翻譯任務中表現(xiàn)優(yōu)異,展現(xiàn)出高翻譯質(zhì)量、說話者的音色保真度和自然度,同時支持批量翻譯和實時設(shè)備端部署,顯示了強大的實用潛力。

Hibiki的主要功能
- 實時語音到語音翻譯(S2ST):能夠?qū)⒁环N語言的語音實時翻譯為另一種語言的語音,保持說話者的音色和語調(diào)。
- 實時語音到文本翻譯(S2TT):將語音實時轉(zhuǎn)換為目標語言的文本,提供更多的使用場景選擇。
- 低延遲翻譯:通過實時積累上下文信息,逐塊生成翻譯內(nèi)容,延遲極低,接近人類口譯的水平。
- 高保真度:生成的語音自然流暢,與源語音的音色和語調(diào)高度相似,用戶體驗接近專業(yè)人類口譯。
- 支持批量和實時部署:推理過程簡單高效,支持批量處理以及實時設(shè)備端部署,適合大規(guī)模應用。
Hibiki的技術(shù)原理
- 多流語言模型架構(gòu):
- 同步處理:同時接收源語音并生成目標語音,基于多流架構(gòu)聯(lián)合建模兩個音頻流。
- 文本和音頻標記:模型預測文本與音頻標記的層次結(jié)構(gòu),實現(xiàn)語音到文本和語音到語音的翻譯。
- 因果音頻編解碼器:利用預訓練的因果音頻編解碼器(如Mimi)將語音編碼為低幀率的離散標記,支持實時流式處理。
- 弱監(jiān)督學習與上下文對齊:
- 合成數(shù)據(jù)生成:基于翻譯單語音頻的轉(zhuǎn)錄文本重新合成目標語音,生成對齊的合成數(shù)據(jù)。
- 上下文對齊:利用現(xiàn)成文本翻譯系統(tǒng)的困惑度,計算單詞級對齊,確保目標語音的生成與源語音的上下文保持同步。
- 靜音插入與對齊感知TTS:通過插入靜音或利用對齊感知的TTS模型重新合成目標語音,確保目標語音的延遲符合實時翻譯的需求。
- 說話者相似性與分類器引導:
- 說話者相似性標記:對訓練數(shù)據(jù)進行說話者相似性分類標記,確保在推理時優(yōu)先選擇高相似性樣本。
- 分類器引導:調(diào)整條件標簽的權(quán)重,增強模型對說話者相似性的控制,進一步提升語音的保真度。
- 高效的推理過程:
- 溫度采樣:運用溫度采樣技術(shù),結(jié)合因果音頻編解碼器,實現(xiàn)流式輸入與輸出。
- 批量處理與實時部署:推理過程簡單高效,支持批量處理和實時設(shè)備端部署,適合大規(guī)模應用。
Hibiki的項目地址
- GitHub倉庫:https://github.com/kyutai-labs/hibiki
- HuggingFace模型庫:https://huggingface.co/collections/kyutai/hibiki
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.03382
Hibiki的應用場景
- 國際會議:在會議中實時翻譯不同語言的發(fā)言,幫助與會者即時理解內(nèi)容。
- 在線教育:將教師的授課語音實時翻譯,幫助學生無障礙地學習。
- 旅游出行:實時翻譯導游的講解或與當?shù)厝说慕涣鳎嵘糜误w驗。
- 新聞采訪:輔助記者快速翻譯采訪內(nèi)容,提升報道的效率。
- 客戶服務:實現(xiàn)多語言客服溝通,提升客戶滿意度。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號