標簽:語音合成
Baichuan-Audio
Baichuan-Audio是百川智能推出的端到端音頻大語言模型,支持無縫集成音頻理解和生成功能,實現支持高質量、可控的實時中英雙語對話。Baichuan-Audio基于多碼...
Step-Audio-TTS-3B
Step-Audio-TTS-3B 是 Stepfun-AI 團隊推出的高性能文本到語音(TTS)模型,具有強大的語音合成能力。基于海量合成數據訓練,參數量達到30億,能生成自然流暢...
Kokoro-TTS
Kokoro-TTS 是 hexgrad 開發的輕量級文本轉語音(TTS)模型,具有 8200 萬參數。基于 StyleTTS 2 和 ISTFTNet 的混合架構,采用純解碼器設計,不使用擴散模型...
什么是TTS(Text To Speech)
TTS(Text to Speech)即文本轉語音技術。是一種將文本信息轉化為自然語音輸出的技術。通過TTS技術,計算機可以將輸入的文本自動轉換成自然語音,模擬出人類...
ElevenLabs Flash
ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
Emoji AI:個性化AI表情包生成器,讓你的情感隨時隨地生動表達
Emoji AI是AI驅動的表情包制作應用,主打卡通風格,提供搜索和文生圖功能,讓用戶能快速創建個性化表情。Emoji AI特別推出節日主題表情,適應不同文化和節日...
ElevenLabs Flash:創新低延遲語音合成模型提升語音交互體驗
ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
Slides Orator:AI驅動的虛擬解說平臺實現幻燈片內容的即時生動呈現
Slides Orator是創新的AI平臺,基于創建虛擬形象實時展示幻燈片進行解說。工具基于技術生成語音旁白,讓演示內容動態地與觀眾互動,增強演示的吸引力和參與度...
Voice-Pro:一站式音頻處理解決方案集轉錄翻譯與語音合成于一體
Voice-Pro是開源的多功能音頻處理工具,集成語音轉文字(STT)、文本轉語音(TTS)、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言...