AI項目和框架

EliGen

EliGen是浙江大學(xué)和阿里巴巴集團(tuán)聯(lián)合開發(fā)的新型的實(shí)體級可控圖像生成框架,通過引入?yún)^(qū)域注意力機(jī)制,無需額外參數(shù)即可將實(shí)體提示和任意形狀的空間掩碼無縫集...
閱讀原文

Hibiki

Hibiki是Kyutai Labs開源的用在同時語音翻譯的解碼器模型,能實(shí)時將一種語言的語音翻譯成另一種語言的語音或文本。Hibiki基于多流語言模型架構(gòu),同步處理源語...
閱讀原文

AlphaGeometry2

AlphaGeometry2 是谷歌 DeepMind 推出的先進(jìn)的人工智能系統(tǒng),專門用于解決國際數(shù)學(xué)奧林匹克競賽(IMO)中的幾何問題。結(jié)合了神經(jīng)符號方法,將谷歌 Gemini 系...
閱讀原文

Agentic Object Detection

Agentic Object Detection 是吳恩達(dá)團(tuán)隊開發(fā)的新型目標(biāo)檢測技術(shù),通過智能代理(Agent)系統(tǒng)實(shí)現(xiàn)無需標(biāo)注數(shù)據(jù)的目標(biāo)檢測。用戶僅需輸入文字提示,AI 基于推理...
閱讀原文

Agno

Agno 是構(gòu)建智能代理(Agents)的輕量級框架。Agno 支持多模態(tài)(文本、圖像、音頻、視頻)和多代理協(xié)作,能快速創(chuàng)建代理,速度比 LangGraph 快 5000 倍,支持...
閱讀原文

Ola

Ola是清華大學(xué)、騰訊 Hunyuan 研究團(tuán)隊和新加坡國立大學(xué) S-Lab 合作開發(fā)的全模態(tài)語言模型。通過漸進(jìn)式模態(tài)對齊策略,逐步擴(kuò)展語言模型支持的模態(tài),從圖像和文...
閱讀原文

Lumina-Image 2.0

Lumina-Image 2.0 是開源的高效統(tǒng)一圖像生成模型,參數(shù)量為26億,基于擴(kuò)散模型和Transformer架構(gòu)。在圖像生成質(zhì)量、復(fù)雜提示理解和資源效率方面表現(xiàn)出色,在...
閱讀原文

BEN2

BEN2(Background Erase Network 2)是Prama LLC開發(fā)的深度學(xué)習(xí)模型,專門用于從圖像和視頻中快速移除背景并提取前景。基于創(chuàng)新的置信度引導(dǎo)摳圖(CGM)管道...
閱讀原文

PartEdit

PartEdit是KAUST推出基于預(yù)訓(xùn)練擴(kuò)散模型的細(xì)粒度圖像編輯方法。PartEdit基于優(yōu)化特定的文本標(biāo)記(稱為“部分標(biāo)記”),讓擴(kuò)散模型精準(zhǔn)定位和編輯圖像中對象的各...
閱讀原文

AstrBot

AstrBot 是多平臺聊天機(jī)器人及開發(fā)框架,支持多種大語言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多種消息平臺(如 QQ、Telegram、微信等)。AstrBo...
閱讀原文

Eino

Eino 是字節(jié)跳動開源的大模型應(yīng)用開發(fā)框架,能幫助開發(fā)者高效構(gòu)建基于大模型的 AI 應(yīng)用。Eino以 Go 語言為基礎(chǔ),具備穩(wěn)定的內(nèi)核、靈活的擴(kuò)展性和完善的工具生...
閱讀原文

NutWorld

NutWorld是新加坡國立大學(xué)、南洋理工大學(xué)和Skywork AI推出的視頻處理框架,能將日常單目視頻高效地轉(zhuǎn)換為動態(tài)3D高斯表示(Gaussian Splatting)。NutWorld基...
閱讀原文

SANA 1.5

SANA 1.5 是英偉達(dá)聯(lián)合MIT、清華、北大等機(jī)構(gòu)推出的新型高效的線性擴(kuò)散變換器(Linear Diffusion Transformer),用于文本到圖像生成任務(wù)。在 SANA 1.0 的基...
閱讀原文

ASAP

ASAP(Aligning Simulation and Real Physics)是卡內(nèi)基梅隆大學(xué)和英偉達(dá)聯(lián)合推出的,用在解決仿人機(jī)器人模擬與現(xiàn)實(shí)動力學(xué)不匹配問題的兩階段框架。ASAP基于...
閱讀原文

MAETok

MAETok(Masked Autoencoders Tokenizer)是卡內(nèi)基梅隆大學(xué)、香港大學(xué)、北京大學(xué)等機(jī)構(gòu)推出的用在擴(kuò)散模型的新型圖像標(biāo)記化方法。MAETok基于掩碼建模(Mask M...
閱讀原文
17778798081155