標簽:語音合成

Toucan TTS

Toucan TTS是由德國斯圖加特大學自然語言處理研究所(IMS)開發(fā)的文本到語音合成工具箱,支持超過7000種語言,包括多種方言和變體,提供多說話人語音合成、語...
閱讀原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI語音初創(chuàng)公司ElevenLabs推出的一款文本轉(zhuǎn)語音應用,利用AI技術將各類文本內(nèi)容,如文章、PDF文件、ePub等,轉(zhuǎn)化為自然流暢、高音...
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發(fā)的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數(shù)據(jù)訓練,實現(xiàn)了接近人類水平的語音合成...
閱讀原文

Qwen2-Audio

Qwen2-Audio是阿里通義千問團隊最新推出的開源AI語音模型,支持直接語音輸入和多語言文本輸出。具備語音聊天、音頻分析功能,支持超過8種語言。Qwen2-Audio在...
閱讀原文

Linly-Dubbing

Linly-Dubbing是一個開源的智能視頻多語言AI配音和翻譯工具,能自動將視頻內(nèi)容翻譯成多種語言,并生成字幕。通過WhisperX和FunASR進行精準語音識別,基于Edge...
閱讀原文

GLM-4V-Plus

GLM-4V-Plus是智譜AI最新推出的多模態(tài)AI模型,專注于圖像和視頻理解。GLM-4V-Plus不僅能夠精確分析靜態(tài)圖像,還具備動態(tài)視頻內(nèi)容的時間感知和理解能力,能捕...
閱讀原文

edge-tts

edge-tts是開源的AI文字轉(zhuǎn)語音項目,支持超過40種語言和300多種聲音。edge-tts利用微軟Azure Cognitive Services的強大功能,能將文本信息轉(zhuǎn)換成流暢自然的語...
閱讀原文

TikTok Voice

TikTok Voice 是基于AI技術的文字轉(zhuǎn)語音(TTS)在線工具,將文本轉(zhuǎn)換成各種流行于TikTok平臺的聲音效果。工具為用戶提供多種語音選項,如女士聲音、Siri聲音...
閱讀原文

AI解說大師

AI解說大師是智能影視創(chuàng)作工具,基于先進的數(shù)字技術和AI大模型,讓用戶能夠輕松生成原創(chuàng)解說視頻。工具具備正版影視素材庫、自動生成解說文案、音頻和字幕智...

豆包AI視頻模型

豆包AI視頻模型是字節(jié)跳動推出的兩款AI視頻生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT結(jié)構(gòu),擅長理解復雜指令,生成連貫、多主體交互的視頻片段...
閱讀原文

PDF2Audio

PDF2Audio 是一個開源工具,能將 PDF 文檔轉(zhuǎn)換成音頻內(nèi)容,適合制作播客、講座或摘要。它基于 OpenAI 的 GPT 模型生成播客腳本,通過文本到語音技術轉(zhuǎn)化為音頻。
閱讀原文

F5-TTS

F5-TTS是由上海交通大學開源的一款高性能文本到語音(TTS)系統(tǒng),基于流匹配的非自回歸生成方法,結(jié)合擴散變換器(DiT)技術。系統(tǒng)在沒有額外監(jiān)督的情況下,...
閱讀原文

語鯨

語鯨(LingoWhale)是基于深言科技大模型能力的一款AI閱讀工具,通過智能總結(jié)、問答、思維導圖等功能,幫助用戶快速把握文章核心內(nèi)容和結(jié)構(gòu)。工具支持多端同...
閱讀原文

Voice Design

Voice Design是ElevenLabs推出的AI語音生成工具,用戶只需描述所需聲音的年齡、口音、性別、語調(diào)或音高,甚至是虛構(gòu)角色如精靈、食人魔等,工具能快速生成獨...
閱讀原文

音鹿

音鹿是AI音頻編輯軟件,提供文字轉(zhuǎn)語音、海量音色選擇、AI翻唱、音頻編輯工具等功能。用戶能生成不同音色配音文件,上傳音色為歌曲配音,適于多個社交平臺。...
閱讀原文
1234