AI項(xiàng)目和框架

LATTE3D

LATTE3D是由英偉達(dá)的研究人員推出的一個(gè)文本生成3D對(duì)象的模型，能夠從文本提示描述快速生成高質(zhì)量的3D內(nèi)容（僅需400毫秒）。該技術(shù)的核心在于采用了一種稱為“...

1年前 (2024)

BrushNet

BrushNet是由騰訊PCG部門的ARC實(shí)驗(yàn)室與香港大學(xué)的研究人員推出的一個(gè)基于擴(kuò)散模型的即插即用的圖像照片修復(fù)（Inpainting）模型，通過(guò)分解的雙分支架構(gòu)來(lái)有效...

閱讀原文

AI工具

1年前 (2024)

SUPIR

SUPIR是一個(gè)突破性的圖像修復(fù)和畫(huà)質(zhì)增強(qiáng)方法，利用了大規(guī)模的生成模型StableDiffusion-XL（SDXL）和模型擴(kuò)展技術(shù)，通過(guò)深度學(xué)習(xí)和多模態(tài)方法，實(shí)現(xiàn)了對(duì)低質(zhì)量...

閱讀原文

AI工具

1年前 (2024)

StreamingT2V

StreamingT2V是由PicsArt AI研究團(tuán)隊(duì)推出的一個(gè)文本到視頻的生成模型，旨在解決現(xiàn)有模型僅能生成16幀或24幀的高質(zhì)量短視頻，在生成長(zhǎng)視頻時(shí)則會(huì)遇到如視頻質(zhì)...

閱讀原文

AI工具

1年前 (2024)

VoiceCraft

VoiceCraft是一個(gè)由德克薩斯大學(xué)奧斯汀分校研究團(tuán)隊(duì)開(kāi)源的神經(jīng)編解碼器語(yǔ)言模型，專注于零樣本語(yǔ)音編輯和文本到語(yǔ)音（TTS）任務(wù)。該模型采用Transformer架構(gòu)...

閱讀原文

AI工具

1年前 (2024)

Champ

Champ是由阿里巴巴、復(fù)旦大學(xué)和南京大學(xué)的研究人員共同提出的一種基于3D的將人物圖片轉(zhuǎn)換為視頻動(dòng)畫(huà)的模型，該方法結(jié)合了3D參數(shù)化模型（特別是SMPL模型）和潛...

閱讀原文

AI工具

1年前 (2024)

Jamba

Jamba是由AI21 Labs推出的首個(gè)基于Mamba架構(gòu)的生產(chǎn)級(jí)別的大語(yǔ)言模型，目前大部分的大模型（如GPT、Gemini 和 Llama）都是基于 Transformer 結(jié)構(gòu)。而 Jamba 結(jié)...

閱讀原文

AI工具

1年前 (2024)

Voice Engine

Voice Engine是OpenAI最新推出的一項(xiàng)AI語(yǔ)音合成和聲音克隆技術(shù)，能夠利用簡(jiǎn)短的15秒音頻樣本和文本輸入，生成接近原聲的自然聽(tīng)起來(lái)的語(yǔ)音。該項(xiàng)技術(shù)自2022年...

閱讀原文

AI工具

1年前 (2024)

SWE-agent

SWE-agent是一個(gè)由普林斯頓大學(xué)NLP組研究人員開(kāi)發(fā)的開(kāi)源AI程序員和軟件工程師系統(tǒng)，利用大型語(yǔ)言模型（如GPT-4）的能力，可以自動(dòng)解決GitHub存儲(chǔ)庫(kù)中的問(wèn)題。...

閱讀原文

AI工具

1年前 (2024)

DreaMoving

DreaMoving是一個(gè)基于擴(kuò)散模型的人類視頻生成框架，由阿里巴巴集團(tuán)的研究團(tuán)隊(duì)開(kāi)發(fā)。DreaMoving通過(guò)視頻控制網(wǎng)絡(luò)和內(nèi)容引導(dǎo)器實(shí)現(xiàn)對(duì)人物動(dòng)作和外觀的精確控制...

閱讀原文

AI工具

1年前 (2024)

AniPortrait

AniPortrait是一個(gè)由騰訊開(kāi)源的照片對(duì)口型視頻生成框架，類似于此前阿里推出的EMO，能夠通過(guò)音頻和一張參考肖像圖片生成高質(zhì)量的動(dòng)畫(huà)。

閱讀原文

AI工具

1年前 (2024)

InstantStyle

InstantStyle是小紅書(shū)的InstantX團(tuán)隊(duì)開(kāi)源的保留風(fēng)格一致性的個(gè)性化文本到圖像生成框架，旨在解決文本到圖像生成中的一個(gè)關(guān)鍵問(wèn)題：如何在保持風(fēng)格一致性的同...

閱讀原文

AI工具

1年前 (2024)

DesignEdit

DesignEdit是由微軟亞洲研究院和北京大學(xué)的研究團(tuán)隊(duì)共同開(kāi)發(fā)的一個(gè)AI圖像編輯框架，引入了設(shè)計(jì)領(lǐng)域的圖層概念，采用多層潛在分解和融合的技術(shù)，實(shí)現(xiàn)了無(wú)需額...

閱讀原文

AI工具

1年前 (2024)

CodeGemma

CodeGemma是由Google發(fā)布的專注于代碼生成和理解的大型語(yǔ)言模型，該系列包含三種不同規(guī)模的模型，分別是2B預(yù)訓(xùn)練模型、7B預(yù)訓(xùn)練模型和7B指令微調(diào)模型，旨在提...

閱讀原文

AI工具

1年前 (2024)

Parler-TTS

Parler-TTS是由Hugging Face推出的一款開(kāi)源的文本到語(yǔ)音（TTS）模型，能夠通過(guò)輸入提示描述模仿特定說(shuō)話者的風(fēng)格（性別、音調(diào)、說(shuō)話風(fēng)格等），生成高質(zhì)量、聽(tīng)...

閱讀原文

AI工具

1年前 (2024)

1…117 118119120 121…155