PodAgent

PodAgent – 港中文、微軟、小紅書聯合推出的播客生成框架

PodAgent是什么

PodAgent 是由香港中文大學、微軟和小紅書聯合開發的一款播客生成框架。該框架模擬真實的脫口秀環境，利用多智能體協作系統（包括主持人、嘉賓和編劇）自動生成豐富且結構化的對話內容。PodAgent還構建了多樣化的聲音庫，以精確匹配角色與聲音，確保音頻的自然性和沉浸感。此外，PodAgent引入了基于大語言模型（LLM）的語音合成技術，能夠生成富有表現力與情感的語音，使播客更具吸引力。它還推出了一套全面的評估指標，以衡量生成播客的質量，從而確保內容的專業性和多樣性。

PodAgent

PodAgent的主要功能

高質量對話生成：自動生成豐富多樣的對話腳本，涵蓋各類主題。
聲音角色匹配：根據角色特性和內容背景，動態匹配最合適的聲音。
語音合成與情感增強：根據對話內容的情緒與語境，調整語音的語調、節奏與情感，使播客更加生動。
完整播客結構生成：支持添加適合的音效和背景音樂，生成完整的播客結構，且可進行多語言生成，以適應不同場合和聽眾需求。
評估與優化工具：提供詳盡的評估指標，衡量生成播客的質量，包括對話內容的豐富性、聲音匹配的精確度及語音表現力。

PodAgent的技術原理

多智能體協作系統：
- 主持人：負責制定對話大綱，引導討論話題。
- 嘉賓：根據角色設定提供專業見解與觀點。
- 編劇：整合對話內容，優化腳本的連貫性與多樣性。
聲音特征分析與匹配：搭建聲音庫，分析聲音特征（如音色、語調、情感等），為每個角色匹配最合適的聲音。利用開源數據集（如 LibriTTS 和 AISHELL-3）提取聲音樣本，經過去重和篩選生成多樣化的聲音庫。
基于LLM的語音合成：通過基于大語言模型（LLM）的語音合成技術，將文本內容轉化為自然且富有表現力的語音。將LLM預測的說話風格作為指令，指導語音合成模型（如 CosyVoice）生成與內容情緒相匹配的語音。
綜合評估指標：推出一套評估指標，用于衡量生成播客的質量，包括對話內容的詞匯多樣性、語義豐富度、信息密度，以及聲音匹配的精確性和語音的表現力。基于 LLM 作為評估工具，對生成內容進行對比和評分。