標簽:語音合成
ElevenLabs Flash:創新低延遲語音合成模型提升語音交互體驗
ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
Slides Orator:AI驅動的虛擬解說平臺實現幻燈片內容的即時生動呈現
Slides Orator是創新的AI平臺,基于創建虛擬形象實時展示幻燈片進行解說。工具基于技術生成語音旁白,讓演示內容動態地與觀眾互動,增強演示的吸引力和參與度...
Voice-Pro:一站式音頻處理解決方案集轉錄翻譯與語音合成于一體
Voice-Pro是開源的多功能音頻處理工具,集成語音轉文字(STT)、文本轉語音(TTS)、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言...
知意配音:多樣化聲音選擇的AI配音工具,200種風格任你挑選
知意配音是AI配音軟件,支持多平臺使用,包括網頁、桌面軟件、手機APP和微信小程序。提供200+種不同風格的聲音選項,滿足各種配音需求。用戶只需輸入文案,選...
Free Video-LLM:高效視頻語言模型實現無需訓練的智能內容生成
Free Video-LLM是創新的無需訓練的高效視頻語言模型,基于提示引導的視覺感知技術,實現對視頻內容的高效理解。模型用預訓練的圖像LLMs,無需額外訓練即可適...
DeepL Voice:DeepL推出全新實時語音翻譯功能
DeepL Voice是DeepL推出的即時語音翻譯服務,幫助全球團隊打破語言障礙,實現無縫溝通。DeepL Voice包括兩個產品:DeepL Voice for Meetings和DeepL Voice fo...
GPT-SoVITS
GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結合了GPT模型和SoVITS變聲器技術,僅需通過少量的樣本數據實現高質量的語音克隆和文本到語音轉換。該工...
VoiceCraft
VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構...
Voice Engine
Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
Parler-TTS
Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...