AI項(xiàng)目和框架
StreamingT2V
StreamingT2V是由PicsArt AI研究團(tuán)隊(duì)推出的一個(gè)文本到視頻的生成模型,旨在解決現(xiàn)有模型僅能生成16幀或24幀的高質(zhì)量短視頻,在生成長(zhǎng)視頻時(shí)則會(huì)遇到如視頻質(zhì)...
VoiceCraft
VoiceCraft是一個(gè)由德克薩斯大學(xué)奧斯汀分校研究團(tuán)隊(duì)開(kāi)源的神經(jīng)編解碼器語(yǔ)言模型,專注于零樣本語(yǔ)音編輯和文本到語(yǔ)音(TTS)任務(wù)。該模型采用Transformer架構(gòu)...
Voice Engine
Voice Engine是OpenAI最新推出的一項(xiàng)AI語(yǔ)音合成和聲音克隆技術(shù),能夠利用簡(jiǎn)短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽(tīng)起來(lái)的語(yǔ)音。該項(xiàng)技術(shù)自2022年...
AniPortrait
AniPortrait是一個(gè)由騰訊開(kāi)源的照片對(duì)口型視頻生成框架,類似于此前阿里推出的EMO,能夠通過(guò)音頻和一張參考肖像圖片生成高質(zhì)量的動(dòng)畫(huà)。
InstantStyle
InstantStyle是小紅書(shū)的InstantX團(tuán)隊(duì)開(kāi)源的保留風(fēng)格一致性的個(gè)性化文本到圖像生成框架,旨在解決文本到圖像生成中的一個(gè)關(guān)鍵問(wèn)題:如何在保持風(fēng)格一致性的同...
DesignEdit
DesignEdit是由微軟亞洲研究院和北京大學(xué)的研究團(tuán)隊(duì)共同開(kāi)發(fā)的一個(gè)AI圖像編輯框架,引入了設(shè)計(jì)領(lǐng)域的圖層概念,采用多層潛在分解和融合的技術(shù),實(shí)現(xiàn)了無(wú)需額...
Parler-TTS
Parler-TTS是由Hugging Face推出的一款開(kāi)源的文本到語(yǔ)音(TTS)模型,能夠通過(guò)輸入提示描述模仿特定說(shuō)話者的風(fēng)格(性別、音調(diào)、說(shuō)話風(fēng)格等),生成高質(zhì)量、聽(tīng)...
粵公網(wǎng)安備 44011502001135號(hào)