標簽:語音合成

Qwen2-Audio

Qwen2-Audio是阿里通義千問團隊最新推出的開源AI語音模型,支持直接語音輸入和多語言文本輸出。具備語音聊天、音頻分析功能,支持超過8種語言。Qwen2-Audio在...
閱讀原文

Linly-Dubbing

Linly-Dubbing是一個開源的智能視頻多語言AI配音和翻譯工具,能自動將視頻內容翻譯成多種語言,并生成字幕。通過WhisperX和FunASR進行精準語音識別,基于Edge...
閱讀原文

GLM-4V-Plus

GLM-4V-Plus是智譜AI最新推出的多模態AI模型,專注于圖像和視頻理解。GLM-4V-Plus不僅能夠精確分析靜態圖像,還具備動態視頻內容的時間感知和理解能力,能捕...
閱讀原文

edge-tts

edge-tts是開源的AI文字轉語音項目,支持超過40種語言和300多種聲音。edge-tts利用微軟Azure Cognitive Services的強大功能,能將文本信息轉換成流暢自然的語...
閱讀原文

TikTok Voice

TikTok Voice 是基于AI技術的文字轉語音(TTS)在線工具,將文本轉換成各種流行于TikTok平臺的聲音效果。工具為用戶提供多種語音選項,如女士聲音、Siri聲音...
閱讀原文

AI解說大師

AI解說大師是智能影視創作工具,基于先進的數字技術和AI大模型,讓用戶能夠輕松生成原創解說視頻。工具具備正版影視素材庫、自動生成解說文案、音頻和字幕智...

豆包AI視頻模型

豆包AI視頻模型是字節跳動推出的兩款AI視頻生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT結構,擅長理解復雜指令,生成連貫、多主體交互的視頻片段...
閱讀原文

PDF2Audio

PDF2Audio 是一個開源工具,能將 PDF 文檔轉換成音頻內容,適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本,通過文本到語音技術轉化為音頻。
閱讀原文

F5-TTS

F5-TTS是由上海交通大學開源的一款高性能文本到語音(TTS)系統,基于流匹配的非自回歸生成方法,結合擴散變換器(DiT)技術。系統在沒有額外監督的情況下,...
閱讀原文

語鯨

語鯨(LingoWhale)是基于深言科技大模型能力的一款AI閱讀工具,通過智能總結、問答、思維導圖等功能,幫助用戶快速把握文章核心內容和結構。工具支持多端同...
閱讀原文

Voice Design

Voice Design是ElevenLabs推出的AI語音生成工具,用戶只需描述所需聲音的年齡、口音、性別、語調或音高,甚至是虛構角色如精靈、食人魔等,工具能快速生成獨...
閱讀原文

音鹿

音鹿是AI音頻編輯軟件,提供文字轉語音、海量音色選擇、AI翻唱、音頻編輯工具等功能。用戶能生成不同音色配音文件,上傳音色為歌曲配音,適于多個社交平臺。...
閱讀原文

Hertz-Dev

Hertz-Dev是Standard Intelligence推出的開源音頻模型,擁有8.5億參數。Hertz-Dev包括音頻自動編碼器hertz-codec、音頻VAE學習先驗hertz-vae和一個66億參數的...
閱讀原文

逗哥配音

逗哥配音是在線配音平臺,專為短視頻創作者設計,提供多種聲音選擇和配音制作功能。平臺擁有超過500萬用戶,包括眾多短視頻達人。逗哥配音的特色功能包括聲音...
閱讀原文

OuteTTS

OuteTTS是開源的文本到語音(TTS)項目,基于純語言建模的方法生成語音。OuteTTS項目基于LLaMa架構,用Oute3-350M-DEV基礎模型,擁有3.5億參數。OuteTTS具備...
閱讀原文
1234