AI項(xiàng)目和框架

KAG

KAG(Knowledge Augmented Generation)是螞蟻集團(tuán)推出的專業(yè)領(lǐng)域知識(shí)服務(wù)框架,基于知識(shí)增強(qiáng)提升大型語(yǔ)言模型(LLMs)在特定領(lǐng)域的問答性能,為垂直領(lǐng)域的知...
閱讀原文

Gemini Coder

Gemini Coder 是基于 Google 的 Gemini API、Next.js 和 Tailwind CSS 的工具,用在快速生成 app 應(yīng)用。Gemini Coder基于簡(jiǎn)單的描述,結(jié)合 Sandpack 實(shí)現(xiàn)實(shí)時(shí)...
閱讀原文

AIOpsLab

AIOpsLab是微軟公司、加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、微軟研究院等機(jī)構(gòu)推出的,用在構(gòu)建、評(píng)估和改進(jìn)云服務(wù)運(yùn)營(yíng)管理AIOps代理的原型框架。AIOpsL...
閱讀原文

VideoRefer

VideoRefer是浙江大學(xué)和阿里達(dá)摩學(xué)院聯(lián)合推出的,專門用在視頻中對(duì)象的感知和推理。基于增強(qiáng)視頻大型語(yǔ)言模型(Video LLMs)的空間-時(shí)間理解能力,讓模型能在...
閱讀原文

JoyCaption

JoyCaption 是開源的圖像提示詞生成工具,用于訓(xùn)練擴(kuò)散模型。JoyCaption 涵蓋廣泛的圖像風(fēng)格、內(nèi)容、種族、性別和取向,最小化過濾理解世界的各個(gè)方面,但不...
閱讀原文

麥橘超然

麥橘超然(MajicFlus)是由麥橘推出的基于Flux.1架構(gòu)的AI模型,專注于生成高質(zhì)量的人像圖像,擅長(zhǎng)表現(xiàn)亞洲女性的細(xì)膩與美感。模型融合多種技術(shù),能生成逼真的...
閱讀原文

CHRONOS

CHRONOS是上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系、阿里巴巴集團(tuán)通義實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合推出的,用在新聞時(shí)間線摘要生成的新型框架,基于迭代自問自答的方式,用大型語(yǔ)...
閱讀原文

Edicho

Edicho 是香港科技大學(xué)、螞蟻集團(tuán)、斯坦福大學(xué)和香港中文大學(xué)推出的,基于擴(kuò)散模型的圖像編輯方法,能在多圖像間實(shí)現(xiàn)一致性編輯。Edicho用免訓(xùn)練的方法,無(wú)需...
閱讀原文

Mobile-Agent

Mobile-Agent 是具有移動(dòng)性的智能代理軟件實(shí)體,能在網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)之間移動(dòng),代表用戶或其他代理進(jìn)行工作。能根據(jù)具體情況中斷當(dāng)前執(zhí)行,移動(dòng)至另一設(shè)備上恢...
閱讀原文

VideoRAG

VideoRAG是用于長(zhǎng)視頻理解的檢索增強(qiáng)生成(Retrieval-Augmented Generation)技術(shù)。通過提取視頻中的視覺對(duì)齊輔助文本,幫助大型視頻語(yǔ)言模型(LVLMs)更好地...
閱讀原文

SPRIGHT

SPRIGHT(SPatially RIGHT)是亞利桑那州立大學(xué) 、Intel 實(shí)驗(yàn)室 、Hugging Face 、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合推出的,專注于空間關(guān)系的大型視覺-語(yǔ)言數(shù)據(jù)集,能解...
閱讀原文

LIGER

LIGER是Meta AI等機(jī)構(gòu)推出的混合檢索模型,結(jié)合生成式檢索和密集檢索的優(yōu)點(diǎn)。LIGER用生成式檢索模塊生成有限的候選項(xiàng)目集,基于密集檢索對(duì)候選項(xiàng)目進(jìn)行排序和...
閱讀原文

SeedVR

SeedVR是南洋理工大學(xué)和字節(jié)跳動(dòng)推出的擴(kuò)散變換器模型,能實(shí)現(xiàn)高質(zhì)量的通用視頻修復(fù)。SeedVR基于引入移位窗口注意力機(jī)制,采用大尺寸(64×64)窗口和邊界處的...
閱讀原文

OpenHands

OpenHands是AI編程工具,支持多智能體協(xié)作提高開發(fā)效率,減少開發(fā)者的編碼工作量。OpenHands基于編寫代碼、與命令行交互和瀏覽網(wǎng)頁(yè)等方式實(shí)現(xiàn)與環(huán)境的互動(dòng)。
閱讀原文

VideoAnydoor

VideoAnydoor是香港大學(xué)、阿里巴巴集團(tuán)達(dá)摩院、湖畔實(shí)驗(yàn)室、華中科技大學(xué)聯(lián)合推出的零樣本的視頻對(duì)象插入框架,能將特定對(duì)象以高保真度和精確運(yùn)動(dòng)控制的方式...
閱讀原文
17475767778146