AI項目和框架
Voice Engine
Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
DreaMoving
DreaMoving是一個基于擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作和外觀的精確控制...
InstantStyle
InstantStyle是小紅書的InstantX團隊開源的保留風格一致性的個性化文本到圖像生成框架,旨在解決文本到圖像生成中的一個關鍵問題:如何在保持風格一致性的同...
Parler-TTS
Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等),生成高質量、聽...