AI項(xiàng)目和框架

LATTE3D

LATTE3D是由英偉達(dá)的研究人員推出的一個(gè)文本生成3D對(duì)象的模型,能夠從文本提示描述快速生成高質(zhì)量的3D內(nèi)容(僅需400毫秒)。該技術(shù)的核心在于采用了一種稱為“...
閱讀原文

BrushNet

BrushNet是由騰訊PCG部門的ARC實(shí)驗(yàn)室與香港大學(xué)的研究人員推出的一個(gè)基于擴(kuò)散模型的即插即用的圖像照片修復(fù)(Inpainting)模型,通過(guò)分解的雙分支架構(gòu)來(lái)有效...
閱讀原文

SUPIR

SUPIR是一個(gè)突破性的圖像修復(fù)和畫(huà)質(zhì)增強(qiáng)方法,利用了大規(guī)模的生成模型StableDiffusion-XL(SDXL)和模型擴(kuò)展技術(shù),通過(guò)深度學(xué)習(xí)和多模態(tài)方法,實(shí)現(xiàn)了對(duì)低質(zhì)量...
閱讀原文

StreamingT2V

StreamingT2V是由PicsArt AI研究團(tuán)隊(duì)推出的一個(gè)文本到視頻的生成模型,旨在解決現(xiàn)有模型僅能生成16幀或24幀的高質(zhì)量短視頻,在生成長(zhǎng)視頻時(shí)則會(huì)遇到如視頻質(zhì)...
閱讀原文

VoiceCraft

VoiceCraft是一個(gè)由德克薩斯大學(xué)奧斯汀分校研究團(tuán)隊(duì)開(kāi)源的神經(jīng)編解碼器語(yǔ)言模型,專注于零樣本語(yǔ)音編輯和文本到語(yǔ)音(TTS)任務(wù)。該模型采用Transformer架構(gòu)...
閱讀原文

Champ

Champ是由阿里巴巴、復(fù)旦大學(xué)和南京大學(xué)的研究人員共同提出的一種基于3D的將人物圖片轉(zhuǎn)換為視頻動(dòng)畫(huà)的模型,該方法結(jié)合了3D參數(shù)化模型(特別是SMPL模型)和潛...
閱讀原文

Jamba

Jamba是由AI21 Labs推出的首個(gè)基于Mamba架構(gòu)的生產(chǎn)級(jí)別的大語(yǔ)言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 結(jié)構(gòu)。而 Jamba 結(jié)...
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項(xiàng)AI語(yǔ)音合成和聲音克隆技術(shù),能夠利用簡(jiǎn)短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽(tīng)起來(lái)的語(yǔ)音。該項(xiàng)技術(shù)自2022年...
閱讀原文

SWE-agent

SWE-agent是一個(gè)由普林斯頓大學(xué)NLP組研究人員開(kāi)發(fā)的開(kāi)源AI程序員和軟件工程師系統(tǒng),利用大型語(yǔ)言模型(如GPT-4)的能力,可以自動(dòng)解決GitHub存儲(chǔ)庫(kù)中的問(wèn)題。...
閱讀原文

DreaMoving

DreaMoving是一個(gè)基于擴(kuò)散模型的人類視頻生成框架,由阿里巴巴集團(tuán)的研究團(tuán)隊(duì)開(kāi)發(fā)。DreaMoving通過(guò)視頻控制網(wǎng)絡(luò)和內(nèi)容引導(dǎo)器實(shí)現(xiàn)對(duì)人物動(dòng)作和外觀的精確控制...
閱讀原文

AniPortrait

AniPortrait是一個(gè)由騰訊開(kāi)源的照片對(duì)口型視頻生成框架,類似于此前阿里推出的EMO,能夠通過(guò)音頻和一張參考肖像圖片生成高質(zhì)量的動(dòng)畫(huà)。
閱讀原文

InstantStyle

InstantStyle是小紅書(shū)的InstantX團(tuán)隊(duì)開(kāi)源的保留風(fēng)格一致性的個(gè)性化文本到圖像生成框架,旨在解決文本到圖像生成中的一個(gè)關(guān)鍵問(wèn)題:如何在保持風(fēng)格一致性的同...
閱讀原文

DesignEdit

DesignEdit是由微軟亞洲研究院和北京大學(xué)的研究團(tuán)隊(duì)共同開(kāi)發(fā)的一個(gè)AI圖像編輯框架,引入了設(shè)計(jì)領(lǐng)域的圖層概念,采用多層潛在分解和融合的技術(shù),實(shí)現(xiàn)了無(wú)需額...
閱讀原文

CodeGemma

CodeGemma是由Google發(fā)布的專注于代碼生成和理解的大型語(yǔ)言模型,該系列包含三種不同規(guī)模的模型,分別是2B預(yù)訓(xùn)練模型、7B預(yù)訓(xùn)練模型和7B指令微調(diào)模型,旨在提...
閱讀原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開(kāi)源的文本到語(yǔ)音(TTS)模型,能夠通過(guò)輸入提示描述模仿特定說(shuō)話者的風(fēng)格(性別、音調(diào)、說(shuō)話風(fēng)格等),生成高質(zhì)量、聽(tīng)...
閱讀原文