標(biāo)簽:多模態(tài)學(xué)習(xí)

FlexRAG

FlexRAG 是創(chuàng)新的檢索增強(qiáng)生成(RAG)框架,旨在解決傳統(tǒng) RAG 系統(tǒng)在處理長(zhǎng)上下文時(shí)面臨的計(jì)算成本高和生成質(zhì)量不足的問(wèn)題。通過(guò)將檢索到的上下文信息壓縮成...
閱讀原文

什么是視頻擴(kuò)散模型(Video Diffusion Models, VDM)

視頻擴(kuò)散模型(Video Diffusion Models, VDM)是一種結(jié)合了變分自編碼器(VAE)和擴(kuò)散模型優(yōu)勢(shì)的生成模型。VDM的核心思想是在潛在空間中進(jìn)行擴(kuò)散過(guò)程,而不是...
閱讀原文

田淵棟:2024年年終總結(jié)

原標(biāo)題:田淵棟:2024年年終總結(jié) 文章來(lái)源:新智元 內(nèi)容字?jǐn)?shù):7452字田淵棟2024年AI研究總結(jié)及2025年展望 本文總結(jié)了田淵棟博士2024年在人工智能領(lǐng)域的研究...
閱讀原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大學(xué)團(tuán)隊(duì)推出的先進(jìn)的跨模態(tài)視頻變分自編碼器(Video VAE),通過(guò)引入新的時(shí)空分離壓縮機(jī)制和文本指導(dǎo),實(shí)現(xiàn)了對(duì)大幅運(yùn)...
閱讀原文

什么是視覺(jué)語(yǔ)言模型(Vision-Language Models, VLMs)

視覺(jué)語(yǔ)言模型(Vision-Language Models, VLMs)是一種多模態(tài)人工智能系統(tǒng),它結(jié)合了圖像和文本的處理能力,以執(zhí)行高級(jí)視覺(jué)語(yǔ)言任務(wù),如視覺(jué)問(wèn)答(Visual Ques...
閱讀原文

行人、車(chē)輛、動(dòng)物等ReID最新綜述!武大等全面總結(jié)Transformer方法 | IJCV 2024

原標(biāo)題:行人、車(chē)輛、動(dòng)物等ReID最新綜述!武大等全面總結(jié)Transformer方法 | IJCV 2024 文章來(lái)源:新智元 內(nèi)容字?jǐn)?shù):7928字Transformer在目標(biāo)重識(shí)別 (Re-ID) ...
閱讀原文

揭開(kāi)未來(lái)之門(mén):Llama2024年度亮點(diǎn)全解析

原標(biāo)題:Llama2024年度要點(diǎn)總結(jié) 文章來(lái)源:人工智能學(xué)家 內(nèi)容字?jǐn)?shù):7315字2024年Llama項(xiàng)目進(jìn)展概述 隨著2024年的結(jié)束,Llama項(xiàng)目在全球范圍內(nèi)取得了顯著的進(jìn)...
閱讀原文

DeepSeek 怒搶視覺(jué)對(duì)話王座!DeepSeek-VL2 發(fā)布即開(kāi)源,技術(shù)全公開(kāi)

原標(biāo)題:DeepSeek 怒搶視覺(jué)對(duì)話王座!DeepSeek-VL2 發(fā)布即開(kāi)源,技術(shù)全公開(kāi) 文章來(lái)源:夕小瑤科技說(shuō) 內(nèi)容字?jǐn)?shù):6315字DeepSeek-VL2:國(guó)內(nèi)大模型領(lǐng)域的“拼多多...
閱讀原文

解鎖復(fù)雜數(shù)學(xué)推理的秘密:通過(guò)多模態(tài)慢思考逐步拆解原子步驟

該方法在解決問(wèn)題的每一步都始終保持著較高的推理質(zhì)量。
閱讀原文

SmolVLM:輕量級(jí)視覺(jué)語(yǔ)言模型助力多模態(tài)任務(wù)的高效解決方案

SmolVLM是Hugging Face推出的輕量級(jí)視覺(jué)語(yǔ)言模型,專(zhuān)為設(shè)備端推理設(shè)計(jì)。以20億參數(shù)量,實(shí)現(xiàn)了高效內(nèi)存占用和快速處理速度。SmolVLM提供了三個(gè)版本以滿足不同...
閱讀原文

StableV2V:中國(guó)科技大學(xué)開(kāi)源視頻編輯工具實(shí)現(xiàn)高效創(chuàng)作與多功能協(xié)作

StableV2V是中國(guó)科技大學(xué)推出的開(kāi)源視頻編輯項(xiàng)目,基于文本、草圖、圖片等輸入實(shí)現(xiàn)視頻中物體的精準(zhǔn)編輯和替換。項(xiàng)目用形狀一致的編輯范式,基于三個(gè)主要組件...
閱讀原文

RAG-Diffusion:區(qū)域感知文本到圖像生成技術(shù)的創(chuàng)新應(yīng)用與優(yōu)勢(shì)分析

RAG-Diffusion是南京大學(xué)團(tuán)隊(duì)推出的區(qū)域感知文本到圖像生成方法。基于區(qū)域硬綁定和區(qū)域軟細(xì)化兩個(gè)階段,實(shí)現(xiàn)對(duì)圖像中各個(gè)區(qū)域的精確控制和細(xì)節(jié)優(yōu)化。RAG-Diff...
閱讀原文
1234