標簽:語音合成

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音頻大語言模型,支持無縫集成音頻理解和生成功能,實現支持高質量、可控的實時中英雙語對話。Baichuan-Audio基于多碼...
閱讀原文

IndexTTS

IndexTTS 是 B 站推出的工業級可控文本轉語音(TTS)系統。基于 XTTS 和 Tortoise 模型開發,結合了 GPT 風格的生成技術,能將文本高效轉化為自然流暢的語音...
閱讀原文

PySpur

PySpur 是開源的輕量級可視化 AI 智能體工作流構建器,簡化 AI 系統的開發流程。基于拖拽式界面讓用戶能快速構建、測試和迭代 AI 工作流,無需編寫復雜代碼。...
閱讀原文

Llasa TTS

Llasa TTS 是香港科技大學基于 LLaMA 架構推出的開源文本轉語音(TTS)模型,支持高質量語音合成和克隆。Llasa TTS 基于單層向量量化(VQ)編解碼器和單個 Tr...
閱讀原文

Step-Audio-TTS-3B

Step-Audio-TTS-3B 是 Stepfun-AI 團隊推出的高性能文本到語音(TTS)模型,具有強大的語音合成能力。基于海量合成數據訓練,參數量達到30億,能生成自然流暢...
閱讀原文

TurboTTS

TurboTTS 是免費的在線文本轉語音工具,支持70多種語言和300多種真實語音選擇,能生成自然、逼真的語音效果,適用于短視頻創作、在線教育、廣告制作、播客等...
閱讀原文

播記

播記是專為播客創作者設計的智能節目筆記(Shownotes)生成工具。通過AI技術,能快速提取播客音頻中的關鍵信息,自動生成包含節目主題、嘉賓介紹、重要觀點、...
閱讀原文

Kokoro-TTS

Kokoro-TTS 是 hexgrad 開發的輕量級文本轉語音(TTS)模型,具有 8200 萬參數。基于 StyleTTS 2 和 ISTFTNet 的混合架構,采用純解碼器設計,不使用擴散模型...
閱讀原文

什么是TTS(Text To Speech)

TTS(Text to Speech)即文本轉語音技術。是一種將文本信息轉化為自然語音輸出的技術。通過TTS技術,計算機可以將輸入的文本自動轉換成自然語音,模擬出人類...
閱讀原文

ElevenLabs Flash

ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
閱讀原文

Emoji AI:個性化AI表情包生成器,讓你的情感隨時隨地生動表達

Emoji AI是AI驅動的表情包制作應用,主打卡通風格,提供搜索和文生圖功能,讓用戶能快速創建個性化表情。Emoji AI特別推出節日主題表情,適應不同文化和節日...
閱讀原文

ElevenLabs Flash:創新低延遲語音合成模型提升語音交互體驗

ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
閱讀原文

Slides Orator:AI驅動的虛擬解說平臺實現幻燈片內容的即時生動呈現

Slides Orator是創新的AI平臺,基于創建虛擬形象實時展示幻燈片進行解說。工具基于技術生成語音旁白,讓演示內容動態地與觀眾互動,增強演示的吸引力和參與度...
閱讀原文

Voice-Pro:一站式音頻處理解決方案集轉錄翻譯與語音合成于一體

Voice-Pro是開源的多功能音頻處理工具,集成語音轉文字(STT)、文本轉語音(TTS)、實時翻譯、YouTube視頻下載和人聲分離等多種功能。工具支持超過100種語言...
閱讀原文
1234