StreamingT2V
StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現(xiàn)有模型僅能生成16幀或24幀的高質(zhì)量短視頻,在生成長視頻時則會遇到如視頻質(zhì)...
VoiceCraft
VoiceCraft是一個由德克薩斯大學(xué)奧斯汀分校研究團隊開源的神經(jīng)編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務(wù)。該模型采用Transformer架構(gòu)...
Voice Engine
Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術(shù),能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術(shù)自2022年...
DreaMoving
DreaMoving是一個基于擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發(fā)。DreaMoving通過視頻控制網(wǎng)絡(luò)和內(nèi)容引導(dǎo)器實現(xiàn)對人物動作和外觀的精確控制...
InstantStyle
InstantStyle是小紅書的InstantX團隊開源的保留風(fēng)格一致性的個性化文本到圖像生成框架,旨在解決文本到圖像生成中的一個關(guān)鍵問題:如何在保持風(fēng)格一致性的同...
DesignEdit
DesignEdit是由微軟亞洲研究院和北京大學(xué)的研究團隊共同開發(fā)的一個AI圖像編輯框架,引入了設(shè)計領(lǐng)域的圖層概念,采用多層潛在分解和融合的技術(shù),實現(xiàn)了無需額...
Parler-TTS
Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風(fēng)格(性別、音調(diào)、說話風(fēng)格等),生成高質(zhì)量、聽...