AI說書媲美真人!豆包語音大模型升級長上下文理解
打破傳統(tǒng)語音合成鏈路,端到端生成

原標(biāo)題:AI說書媲美真人!豆包語音大模型升級長上下文理解
文章來源:量子位
內(nèi)容字?jǐn)?shù):2445字
豆包語音模型:AI 合成有聲書,媲美真人主播
本文總結(jié)了量子位公眾號文章中關(guān)于豆包語音模型在AI有聲書合成方面的技術(shù)突破。該模型在原有Seed-TTS框架的基礎(chǔ)上,通過一系列改進(jìn),實現(xiàn)了高表現(xiàn)力、高自然度、高語義理解的小說演播效果,其合成語音效果已達(dá)到一流真人主播的90%以上。
1. 挑戰(zhàn)與突破:超越傳統(tǒng)TTS
市面上許多語音模型已能生成自然的聲音,但在音質(zhì)、韻律、情感以及多角色演繹方面仍有提升空間。尤其在小說演播領(lǐng)域,要達(dá)到一流主播的細(xì)膩程度,需要精準(zhǔn)表達(dá)角感、區(qū)分旁白和角色、以及確保不同角色的區(qū)分度。傳統(tǒng)TTS需要人工標(biāo)注對話、旁白、情感和角色等信息,而豆包語音模型則實現(xiàn)了端到端合成,無需額外標(biāo)簽,顯著提高了效率。
2. Seed-TTS框架的改進(jìn)與創(chuàng)新
豆包語音模型基于Seed-TTS框架進(jìn)行改進(jìn)。Seed-TTS本身包含四個主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包團隊的改進(jìn)主要體現(xiàn)在以下幾個方面:
- 數(shù)據(jù)處理:對小說音頻進(jìn)行章節(jié)級別處理,保證了長文本語音的一致性和連貫性。
- 特征融合:融合TTS前端提取的音素、音調(diào)、韻律信息和原始文本,提升發(fā)音和韻律的同時,保留小說語義。
- 結(jié)構(gòu)調(diào)整:將Speech Tokenizer改為Speaker Embedding,擺脫了參考音頻對語音風(fēng)格的限制,使同一個發(fā)音人能夠在不同角色上進(jìn)行更貼合人設(shè)的演繹。
- 上下文理解:在目標(biāo)合成文本之外,額外加入上下文信息,使模型能夠感知更大范圍的語義信息,從而更精準(zhǔn)地表達(dá)旁白和角色。
這些改進(jìn)最終使模型在CMOS評分中達(dá)到了與真人主播90%以上的相似度。
3. 技術(shù)落地與未來展望
豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎(chǔ),利用該技術(shù)合成了上千部有聲書,已上線番茄小說平臺,涵蓋歷史、懸疑、靈異、都市、腦洞、科幻等多種題材。未來,該團隊將繼續(xù)探索前沿科技與業(yè)務(wù)場景的結(jié)合,致力于提供更極致的聽書體驗。
4. 總結(jié)
豆包語音模型通過對Seed-TTS框架的改進(jìn)和創(chuàng)新,在AI有聲書合成領(lǐng)域取得了顯著進(jìn)展,其技術(shù)突破不僅提高了合成語音的質(zhì)量和自然度,也簡化了生產(chǎn)流程。這項技術(shù)不僅為聽書用戶帶來了更好的體驗,也為有聲書產(chǎn)業(yè)的發(fā)展帶來了新的可能性。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號