標簽:多語言支持

DreaMoving

DreaMoving是一個基于擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作和外觀的精確控制...
閱讀原文

CodeGemma

CodeGemma是由Google發布的專注于代碼生成和理解的大型語言模型,該系列包含三種不同規模的模型,分別是2B預訓練模型、7B預訓練模型和7B指令微調模型,旨在提...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...
閱讀原文

VASA-1

VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換為對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說話面部動畫。
閱讀原文

Phi-3

Phi-3是微軟研究院推出的新一代系列先進的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時...
閱讀原文

商量擬人大模型

商量擬人大模型“SenseChat-Character”是商湯科技推出的一款人工智能虛擬角色對話系統,專注于提供個性化角色創建、定制和對話服務。
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本。該大模型利用層...
閱讀原文

PuLID

PuLID是字節跳動的團隊開源的一種個性化文本到圖像生成技術,通過對比對齊和快速采樣方法,實現了無需調整模型的高效ID定制,輕松實現圖像換臉效果。
閱讀原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先進的人工智能模型,具備強大的多模態推理能力,能夠處理語音、文本和視覺信息。該模型能夠實時響應用戶輸入,并且在音頻交互...
閱讀原文

Universal-1

Universal-1是AI語音初創公司AssemblyAI推出的一款多語言語音識別和轉錄模型,經過超過1250萬小時的多語種音頻數據訓練,支持英語、西班牙語、法語和德語等。
閱讀原文

Stable Assistant

Stable Assistant是由Stability AI開發的一款聊天機器人,集成了最新的文本和圖像生成技術(Stable Diffusion 3和Stable LM 2 12B )。該AI對話工具能夠理解...
閱讀原文

ChatTTS

ChatTTS是一款專為對話場景設計的支持中英文的文本轉語音(TTS)模型,基于約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。
閱讀原文

Seed-TTS

Seed-TTS是由字節跳動開發的一系列高級文本到語音(Text to Speech,TTS)模型,能夠生成與人類語音極為相似的高質量語音,具備出色的上下文學習能力和自然度。
閱讀原文

Gen-3 Alpha

Gen-3 Alpha是由AI視頻初創公司Runway最新發布的新一代AI視頻生成模型,通過大規模多模態訓練基礎設施,顯著提升了視頻的保真度、一致性和動態表現。該模型能...
閱讀原文

Toucan TTS

Toucan TTS是由德國斯圖加特大學自然語言處理研究所(IMS)開發的文本到語音合成工具箱,支持超過7000種語言,包括多種方言和變體,提供多說話人語音合成、語...
閱讀原文
1383940414262