AI項目和框架

Lumina-Image 2.0

Lumina-Image 2.0 是開源的高效統一圖像生成模型,參數量為26億,基于擴散模型和Transformer架構。在圖像生成質量、復雜提示理解和資源效率方面表現出色,在...
閱讀原文

BEN2

BEN2(Background Erase Network 2)是Prama LLC開發的深度學習模型,專門用于從圖像和視頻中快速移除背景并提取前景。基于創新的置信度引導摳圖(CGM)管道...
閱讀原文

PartEdit

PartEdit是KAUST推出基于預訓練擴散模型的細粒度圖像編輯方法。PartEdit基于優化特定的文本標記(稱為“部分標記”),讓擴散模型精準定位和編輯圖像中對象的各...
閱讀原文

AstrBot

AstrBot 是多平臺聊天機器人及開發框架,支持多種大語言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多種消息平臺(如 QQ、Telegram、微信等)。AstrBo...
閱讀原文

Eino

Eino 是字節跳動開源的大模型應用開發框架,能幫助開發者高效構建基于大模型的 AI 應用。Eino以 Go 語言為基礎,具備穩定的內核、靈活的擴展性和完善的工具生...
閱讀原文

NutWorld

NutWorld是新加坡國立大學、南洋理工大學和Skywork AI推出的視頻處理框架,能將日常單目視頻高效地轉換為動態3D高斯表示(Gaussian Splatting)。NutWorld基...
閱讀原文

SANA 1.5

SANA 1.5 是英偉達聯合MIT、清華、北大等機構推出的新型高效的線性擴散變換器(Linear Diffusion Transformer),用于文本到圖像生成任務。在 SANA 1.0 的基...
閱讀原文

ASAP

ASAP(Aligning Simulation and Real Physics)是卡內基梅隆大學和英偉達聯合推出的,用在解決仿人機器人模擬與現實動力學不匹配問題的兩階段框架。ASAP基于...
閱讀原文

MAETok

MAETok(Masked Autoencoders Tokenizer)是卡內基梅隆大學、香港大學、北京大學等機構推出的用在擴散模型的新型圖像標記化方法。MAETok基于掩碼建模(Mask M...
閱讀原文

JoyGen

JoyGen是京東科技和香港大學推出的,音頻驅動的3D說話人臉視頻生成框架,專注于實現精確的唇部與音頻同步及高質量的視覺效果。JoyGen結合音頻特征和面部深度...
閱讀原文

LIMO

LIMO(Less Is More for Reasoning)是上海交通大學研究團隊提出的高效推理方法,通過極少量高質量的訓練樣本激活大語言模型(LLM)的復雜推理能力。核心假設...
閱讀原文

VideoJAM

VideoJAM是Meta推出的,用在增強視頻生成模型運動連貫性的框架。基于引入聯合外觀-運動表示,讓模型在訓練階段同時學習預測視頻的像素和運動信息,在推理階段...
閱讀原文

SynCD

SynCD(Synthetic Customization Dataset)是卡內基梅隆大學和Meta推出的高質量合成訓練數據集,用在提升文本到圖像模型的定制化能力。SynCD包含多個相同對象...
閱讀原文

MatAnyone

MatAnyone是南洋理工大學S-Lab實驗室和商湯科技推出的,針對復雜背景人像視頻摳圖的先進框架,專注于目標指定的視頻摳圖任務。MatAnyone基于一致的內存傳播模...
閱讀原文

s1

s1是斯坦福大學和華盛頓大學的研究團隊開發的低成本、高性能的AI推理模型。模型通過“蒸餾”技術從谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推...
閱讀原文
16869707172146