標簽:語音合成

ElevenLabs Flash:創新低延遲語音合成模型提升語音交互體驗

ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
閱讀原文

Slides Orator:AI驅動的虛擬解說平臺實現幻燈片內容的即時生動呈現

Slides Orator是創新的AI平臺,基于創建虛擬形象實時展示幻燈片進行解說。工具基于技術生成語音旁白,讓演示內容動態地與觀眾互動,增強演示的吸引力和參與度...
閱讀原文

Voice-Pro:一站式音頻處理解決方案集轉錄翻譯與語音合成于一體

Voice-Pro是開源的多功能音頻處理工具,集成語音轉文字(STT)、文本轉語音(TTS)、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言...
閱讀原文

知意配音:多樣化聲音選擇的AI配音工具,200種風格任你挑選

知意配音是AI配音軟件,支持多平臺使用,包括網頁、桌面軟件、手機APP和微信小程序。提供200+種不同風格的聲音選項,滿足各種配音需求。用戶只需輸入文案,選...
閱讀原文

Free Video-LLM:高效視頻語言模型實現無需訓練的智能內容生成

Free Video-LLM是創新的無需訓練的高效視頻語言模型,基于提示引導的視覺感知技術,實現對視頻內容的高效理解。模型用預訓練的圖像LLMs,無需額外訓練即可適...
閱讀原文

DeepL Voice:DeepL推出全新實時語音翻譯功能

DeepL Voice是DeepL推出的即時語音翻譯服務,幫助全球團隊打破語言障礙,實現無縫溝通。DeepL Voice包括兩個產品:DeepL Voice for Meetings和DeepL Voice fo...
閱讀原文

OpenVoice

OpenVoice是由MyShell推出的一個免費開源的AI即時語音克隆項目,相較于其他的語音克隆技術,OpenVoice的優勢在于僅需一段簡短的音頻,便能以驚人的準確度復刻...
閱讀原文

GPT-SoVITS

GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結合了GPT模型和SoVITS變聲器技術,僅需通過少量的樣本數據實現高質量的語音克隆和文本到語音轉換。該工...
閱讀原文

MeloTTS

MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音(TTS)庫,能夠將文本轉換成自然流暢的語音輸出,支持多種語言。MeloTTS 的語音合成速度非...
閱讀原文

VoiceCraft

VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構...
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

ChatTTS

ChatTTS是一款專為對話場景設計的支持中英文的文本轉語音(TTS)模型,基于約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。
閱讀原文

Seed-TTS

Seed-TTS是由字節跳動開發的一系列高級文本到語音(Text to Speech,TTS)模型,能夠生成與人類語音極為相似的高質量語音,具備出色的上下文學習能力和自然度。
閱讀原文
1234