AI項(xiàng)目和框架
Gemini Coder
Gemini Coder 是基于 Google 的 Gemini API、Next.js 和 Tailwind CSS 的工具,用在快速生成 app 應(yīng)用。Gemini Coder基于簡(jiǎn)單的描述,結(jié)合 Sandpack 實(shí)現(xiàn)實(shí)時(shí)...
VideoRefer
VideoRefer是浙江大學(xué)和阿里達(dá)摩學(xué)院聯(lián)合推出的,專門用在視頻中對(duì)象的感知和推理。基于增強(qiáng)視頻大型語(yǔ)言模型(Video LLMs)的空間-時(shí)間理解能力,讓模型能在...
JoyCaption
JoyCaption 是開源的圖像提示詞生成工具,用于訓(xùn)練擴(kuò)散模型。JoyCaption 涵蓋廣泛的圖像風(fēng)格、內(nèi)容、種族、性別和取向,最小化過濾理解世界的各個(gè)方面,但不...
Mobile-Agent
Mobile-Agent 是具有移動(dòng)性的智能代理軟件實(shí)體,能在網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)之間移動(dòng),代表用戶或其他代理進(jìn)行工作。能根據(jù)具體情況中斷當(dāng)前執(zhí)行,移動(dòng)至另一設(shè)備上恢...
VideoAnydoor
VideoAnydoor是香港大學(xué)、阿里巴巴集團(tuán)達(dá)摩院、湖畔實(shí)驗(yàn)室、華中科技大學(xué)聯(lián)合推出的零樣本的視頻對(duì)象插入框架,能將特定對(duì)象以高保真度和精確運(yùn)動(dòng)控制的方式...