AI項目和框架

Follow Your Pose

Follow Your Pose是由清華大學、香港科技大學、騰訊AI Lab以及中科院的研究人員開源的一個基于文本到視頻生成的框架,允許用戶通過文本描述和指定的人物姿態...
閱讀原文

IP-Adapter

IP-Adapter(Image Prompt Adapter)是一種專門為預訓練的文本到圖像擴散模型(如Stable Diffusion)設計的適配器,目的是讓文生圖模型能夠利用圖像提示來生...
閱讀原文

OLMo

OLMo(Open Language Model)是由Allen AI(AI2,艾倫AI研究所)開發的一個完全開源開放的大型語言模型(LLM)框架,設計初衷是為了通過開放研究,促進學術界...
閱讀原文

DiffusionGPT

DiffusionGPT是由來自字節跳動與中山大學的研究人員推出的一個開源的大模型(LLM)驅動的文本到圖像生成系統,旨在解決文生圖領域無法處理不同的輸入或者僅限...
閱讀原文

MetaGPT

MetaGPT是一個創新的元編程框架,結合了大語言模型和多智能體協作系統,旨在通過模擬人類工作流程來解決復雜問題。該框架的核心在于將標準化操作程序(SOPs)...
閱讀原文

MotionCtrl

MotionCtrl是由來自騰訊和香港大學等機構的研究人員推出的一個為視頻生成模型設計的統一且靈活的運動控制器,能夠獨立地控制視頻中的相機運動和物體運動視角...
閱讀原文

AnimateDiff

AnimateDiff是由上海人工智能實驗室、香港中文大學和斯坦福大學的研究人員推出的一款將個性化的文本到圖像模型擴展為動畫生成器的框架,其核心在于它能夠利用...
閱讀原文

Depth Anything

Depth Anything是由來自Tiktok、香港大學和浙江大學的研究人員推出的一個為單目深度估計設計的深度學習模型,旨在處理各種情況下的圖像并估計其深度信息。該...
閱讀原文

Boximator

Boximator是有字節跳動的研究團隊開發的一種視頻合成技術,旨在生成豐富且可控的運動,以增強視頻合成的質量和控制性。該技術通過引入兩種類型的約束框(硬框...
閱讀原文

DiT

DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發負責人之一) 與紐約大學助理教授謝賽寧提出,結合了去噪擴散概率模型(...
閱讀原文

VideoPoet

VideoPoet是由谷歌的研究團隊開發的一種基于大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,并生成匹配的音頻。VideoPoet的核...
閱讀原文

Stable Diffusion 3

Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過文本提示生成高質量的圖像。...
閱讀原文

ConsiStory

ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下,遵循不同的文本...
閱讀原文

ScreenAgent

ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體,該智能體是基于視覺語言模型(VLM)構建的,能夠與真實計算機屏幕進行交互。Scr...
閱讀原文

YOLOv9

YOLOv9是一個由臺北中研院和臺北科技大學等機構的研究團隊推出的新一代先進的目標檢測系統,是YOLO(You Only Look Once)算法系列的最新版本。YOLOv9在前代...
閱讀原文