AI項目和框架

MotionCtrl

MotionCtrl是由來自騰訊和香港大學(xué)等機構(gòu)的研究人員推出的一個為視頻生成模型設(shè)計的統(tǒng)一且靈活的運動控制器,能夠獨立地控制視頻中的相機運動和物體運動視角...
閱讀原文

AnimateDiff

AnimateDiff是由上海人工智能實驗室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個性化的文本到圖像模型擴展為動畫生成器的框架,其核心在于它能夠利用...
閱讀原文

Depth Anything

Depth Anything是由來自Tiktok、香港大學(xué)和浙江大學(xué)的研究人員推出的一個為單目深度估計設(shè)計的深度學(xué)習(xí)模型,旨在處理各種情況下的圖像并估計其深度信息。該...
閱讀原文

Boximator

Boximator是有字節(jié)跳動的研究團隊開發(fā)的一種視頻合成技術(shù),旨在生成豐富且可控的運動,以增強視頻合成的質(zhì)量和控制性。該技術(shù)通過引入兩種類型的約束框(硬框...
閱讀原文

DiT

DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發(fā)負(fù)責(zé)人之一) 與紐約大學(xué)助理教授謝賽寧提出,結(jié)合了去噪擴散概率模型(...
閱讀原文

VideoPoet

VideoPoet是由谷歌的研究團隊開發(fā)的一種基于大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質(zhì)量的視頻內(nèi)容,并生成匹配的音頻。VideoPoet的核...
閱讀原文

Stable Diffusion 3

Stable Diffusion 3 是由 Stability AI 開發(fā)的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過文本提示生成高質(zhì)量的圖像。...
閱讀原文

ConsiStory

ConsiStory是由NVIDIA和特拉維夫大學(xué)的研究人員共同開發(fā)的一種無需訓(xùn)練的文本生成圖像的方法,可以實現(xiàn)讓圖像在保持風(fēng)格和主題不變的情況下,遵循不同的文本...
閱讀原文

ScreenAgent

ScreenAgent是一個由吉林大學(xué)人工智能學(xué)院的研究團隊開發(fā)的計算機控制智能體,該智能體是基于視覺語言模型(VLM)構(gòu)建的,能夠與真實計算機屏幕進行交互。Scr...
閱讀原文

YOLOv9

YOLOv9是一個由臺北中研院和臺北科技大學(xué)等機構(gòu)的研究團隊推出的新一代先進的目標(biāo)檢測系統(tǒng),是YOLO(You Only Look Once)算法系列的最新版本。YOLOv9在前代...
閱讀原文

VideoPrism

VideoPrism是一個由谷歌研究團隊開發(fā)的通用視頻編碼器,旨在通過一個單一的凍結(jié)模型來處理多種視頻理解任務(wù)。該模型能夠從視頻中提取豐富的語義表示,使其能...
閱讀原文

GPT-SoVITS

GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結(jié)合了GPT模型和SoVITS變聲器技術(shù),僅需通過少量的樣本數(shù)據(jù)實現(xiàn)高質(zhì)量的語音克隆和文本到語音轉(zhuǎn)換。該工...
閱讀原文

OpenCodeInterpreter

OpenCodeInterpreter是一個開源的代碼解釋器系統(tǒng),旨在通過利用大模型結(jié)合代碼生成、執(zhí)行和迭代精煉的能力,可以輔助開發(fā)者在軟件開發(fā)過程中生成、測試和優(yōu)化...
閱讀原文

ChatMusician

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大學(xué)的研究人員推出的,一個開源的用于理解和生成音樂的大型語言模型...
閱讀原文

EMO

EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發(fā)的框架,一個音頻驅(qū)動的AI肖像視頻生成系統(tǒng),能夠通過輸入單一的參考圖像和語...
閱讀原文