AI項(xiàng)目和框架

LanDiff

LanDiff是用于高質(zhì)量的文本到視頻(T2V)生成的創(chuàng)新混合框架,結(jié)合了自回歸語(yǔ)言模型(LLM)和擴(kuò)散模型(Diffusion Model)的優(yōu)勢(shì),通過(guò)粗到細(xì)的生成方式,有...
閱讀原文

IMAGPose

IMAGPose 是南京理工大學(xué)推出的用于人體姿態(tài)引導(dǎo)圖像生成的統(tǒng)一條件框架。解決傳統(tǒng)方法在姿態(tài)引導(dǎo)的人物圖像生成中存在的局限性,如無(wú)法同時(shí)生成多個(gè)不同姿態(tài)...
閱讀原文

Heygem

Heygem 是硅基智能推出的開(kāi)源數(shù)字人模型,專(zhuān)為 Windows 系統(tǒng)設(shè)計(jì)。基于先進(jìn)的AI技術(shù),僅需 1 秒視頻或 1 張照片,能在 30 秒內(nèi)完成數(shù)字人形象和聲音克隆,在 ...
閱讀原文

GO-1

GO-1(Genie Operator-1,智元啟元大模型)是智元機(jī)器人推出的首個(gè)通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架構(gòu),由VLM(多模態(tài)大...
閱讀原文

Gemini Embedding

Gemini Embedding 是 Google 推出的先進(jìn)的文本嵌入模型,基于將文本轉(zhuǎn)化為高維數(shù)值向量,捕捉其語(yǔ)義和上下文信息。Gemini Embedding基于 Gemini 模型訓(xùn)練,具...
閱讀原文

DoraCycle

DoraCycle 是新加坡國(guó)立大學(xué) Show Lab 推出多模態(tài)領(lǐng)域適應(yīng)的統(tǒng)一生成模型,通過(guò)兩個(gè)多模態(tài)循環(huán)(text-to-image-to-text 和 image-to-text-to-image)實(shí)現(xiàn)不同...
閱讀原文

Nanobrowser

Nanobrowser 是開(kāi)源的 Chrome 擴(kuò)展工具,專(zhuān)注于 AI 驅(qū)動(dòng)的網(wǎng)頁(yè)自動(dòng)化。Nanobrowser基于多智能體系統(tǒng)實(shí)現(xiàn)復(fù)雜的網(wǎng)頁(yè)任務(wù),如信息提取、自動(dòng)化操作等。用戶(hù)用自...
閱讀原文

DINO-XSeek

DINO-XSeek 是 IDEA 研究院推出的多模態(tài)目標(biāo)檢測(cè)模型,結(jié)合視覺(jué)感知和自然語(yǔ)言理解能力。DINO-XSeek基于復(fù)雜的語(yǔ)言描述精準(zhǔn)定位圖像中的目標(biāo),識(shí)別目標(biāo)的屬性...
閱讀原文

AppAgentX

AppAgentX 是西湖大學(xué)推出的新型自我進(jìn)化式 GUI(圖形用戶(hù)界面)代理框架,基于從執(zhí)行歷史中抽象出高級(jí)動(dòng)作提升代理在智能手機(jī)交互中的效率和智能性。AppAgen...
閱讀原文

URO-Bench

URO-Bench 是面向端到端語(yǔ)音對(duì)話模型(SDMs)的全面基準(zhǔn)測(cè)試工具。涵蓋了多語(yǔ)言、多輪對(duì)話、副語(yǔ)言信息等多維度任務(wù),全面評(píng)估語(yǔ)音對(duì)話模型的性能。

GCDance

GCDance(Genre-Controlled 3D Full Body Dance Generation Driven by Music)是英國(guó)薩里大學(xué)和江南大學(xué)推出的3D舞蹈生成框架,能根據(jù)音樂(lè)和文本提示生成符合...
閱讀原文

LaWGPT

LaWGPT 是南京大學(xué)推出的中文法律大語(yǔ)言模型,基于 LLaMA 模型進(jìn)行二次預(yù)訓(xùn)練,融入大量中文法律知識(shí)。專(zhuān)注于法律領(lǐng)域,能理解和生成與法律相關(guān)的文本,適用...
閱讀原文

OpenManus

OpenManus 是MetaGPT 團(tuán)隊(duì)推出的開(kāi)源復(fù)刻版?Manus,提供無(wú)需邀請(qǐng)碼的 AI Agent 。OpenManus基于模塊化設(shè)計(jì),支持多種語(yǔ)言模型和工具鏈,能執(zhí)行代碼、處理文件...
閱讀原文

NEXUS-O

NEXUS-O 是HiThink 研究院、英國(guó)帝國(guó)理工學(xué)院、浙江大學(xué)、復(fù)旦大學(xué)、微軟、Meta AI等機(jī)構(gòu)推出的多模態(tài)AI模型,能實(shí)現(xiàn)對(duì)語(yǔ)言、音頻和視覺(jué)信息的全方位感知與交...
閱讀原文

OWL

OWL(Optimized Workforce Learning)是基于CAMEL-AI框架開(kāi)發(fā)的多智能體協(xié)作系統(tǒng),通過(guò)智能體之間的動(dòng)態(tài)交互實(shí)現(xiàn)高效的任務(wù)自動(dòng)化。通過(guò)角色分配和任務(wù)分解,...
閱讀原文
16263646566155