標簽:多語言支持

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...
閱讀原文

商量擬人大模型

商量擬人大模型“SenseChat-Character”是商湯科技推出的一款人工智能虛擬角色對話系統,專注于提供個性化角色創建、定制和對話服務。
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先進的人工智能模型,具備強大的多模態推理能力,能夠處理語音、文本和視覺信息。該模型能夠實時響應用戶輸入,并且在音頻交互...
閱讀原文

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型,經過超過1250萬小時的多語種音頻數據訓練,支持英語、西班牙語、法語和德語等。
閱讀原文

Stable Assistant

Stable Assistant是由Stability AI開發的一款聊天機器人,集成了最新的文本和圖像生成技術(Stable Diffusion 3和Stable LM 2 12B )。該AI對話工具能夠理解...
閱讀原文

ChatTTS

ChatTTS是一款專為對話場景設計的支持中英文的文本轉語音(TTS)模型,基于約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。
閱讀原文

Seed-TTS

Seed-TTS是由字節跳動開發的一系列高級文本到語音(Text to Speech,TTS)模型,能夠生成與人類語音極為相似的高質量語音,具備出色的上下文學習能力和自然度。
閱讀原文

Gen-3 Alpha

Gen-3 Alpha是由AI視頻初創公司Runway最新發布的新一代AI視頻生成模型,通過大規模多模態訓練基礎設施,顯著提升了視頻的保真度、一致性和動態表現。該模型能...
閱讀原文

Toucan TTS

Toucan TTS是由德國斯圖加特大學自然語言處理研究所(IMS)開發的文本到語音合成工具箱,支持超過7000種語言,包括多種方言和變體,提供多說話人語音合成、語...
閱讀原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI語音初創公司ElevenLabs推出的一款文本轉語音應用,利用AI技術將各類文本內容,如文章、PDF文件、ePub等,轉化為自然流暢、高音...
閱讀原文

豆包MarsCode

豆包MarsCode是字節跳動旗下的公司推出的一個免費AI編程工具,既提供一個AI驅動的云端集成開發環境(IDE),也支持作為VS Code和JetBrains的智能編程擴展(Ex...
閱讀原文
1383940414261