打破傳統語音合成鏈路,端到端生成
豆包語音模型:AI 合成有聲書,媲美真人主播
本文總結了量子位公眾號文章中關于豆包語音模型在AI有聲書合成方面的技術突破。該模型在原有Seed-TTS框架的基礎上,通過一系列改進,實現了高表現力、高自然度、高語義理解的小說演播效果,其合成語音效果已達到一流真人主播的90%以上。
1. 挑戰與突破:超越傳統TTS
市面上許多語音模型已能生成自然的聲音,但在音質、韻律、情感以及多角色演繹方面仍有提升空間。尤其在小說演播領域,要達到一流主播的細膩程度,需要精準表達角感、區分旁白和角色、以及確保不同角色的區分度。傳統TTS需要人工標注對話、旁白、情感和角色等信息,而豆包語音模型則實現了端到端合成,無需額外標簽,顯著提高了效率。
2. Seed-TTS框架的改進與創新
豆包語音模型基于Seed-TTS框架進行改進。Seed-TTS本身包含四個主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包團隊的改進主要體現在以下幾個方面:
- 數據處理:對小說音頻進行章節級別處理,保證了長文本語音的一致性和連貫性。
- 特征融合:融合TTS前端提取的音素、音調、韻律信息和原始文本,提升發音和韻律的同時,保留小說語義。
- 結構調整:將Speech Tokenizer改為Speaker Embedding,擺脫了參考音頻對語音風格的限制,使同一個發音人能夠在不同角色上進行更貼合人設的演繹。
- 上下文理解:在目標合成文本之外,額外加入上下文信息,使模型能夠感知更大范圍的語義信息,從而更精準地表達旁白和角色。
這些改進最終使模型在CMOS評分中達到了與真人主播90%以上的相似度。
3. 技術落地與未來展望
豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎,利用該技術合成了上千部有聲書,已上線番茄小說平臺,涵蓋歷史、懸疑、靈異、都市、腦洞、科幻等多種題材。未來,該團隊將繼續探索前沿科技與業務場景的結合,致力于提供更極致的聽書體驗。
4. 總結
豆包語音模型通過對Seed-TTS框架的改進和創新,在AI有聲書合成領域取得了顯著進展,其技術突破不僅提高了合成語音的質量和自然度,也簡化了生產流程。這項技術不僅為聽書用戶帶來了更好的體驗,也為有聲書產業的發展帶來了新的可能性。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...