標簽:多模態學習
什么是視頻擴散模型(Video Diffusion Models, VDM)
視頻擴散模型(Video Diffusion Models, VDM)是一種結合了變分自編碼器(VAE)和擴散模型優勢的生成模型。VDM的核心思想是在潛在空間中進行擴散過程,而不是...
田淵棟:2024年年終總結
原標題:田淵棟:2024年年終總結 文章來源:新智元 內容字數:7452字田淵棟2024年AI研究總結及2025年展望 本文總結了田淵棟博士2024年在人工智能領域的研究...
什么是視覺語言模型(Vision-Language Models, VLMs)
視覺語言模型(Vision-Language Models, VLMs)是一種多模態人工智能系統,它結合了圖像和文本的處理能力,以執行高級視覺語言任務,如視覺問答(Visual Ques...
行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法 | IJCV 2024
原標題:行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法 | IJCV 2024 文章來源:新智元 內容字數:7928字Transformer在目標重識別 (Re-ID) ...
揭開未來之門:Llama2024年度亮點全解析
原標題:Llama2024年度要點總結 文章來源:人工智能學家 內容字數:7315字2024年Llama項目進展概述 隨著2024年的結束,Llama項目在全球范圍內取得了顯著的進...
DeepSeek 怒搶視覺對話王座!DeepSeek-VL2 發布即開源,技術全公開
原標題:DeepSeek 怒搶視覺對話王座!DeepSeek-VL2 發布即開源,技術全公開 文章來源:夕小瑤科技說 內容字數:6315字DeepSeek-VL2:國內大模型領域的“拼多多...
SmolVLM:輕量級視覺語言模型助力多模態任務的高效解決方案
SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設備端推理設計。以20億參數量,實現了高效內存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同...
StableV2V:中國科技大學開源視頻編輯工具實現高效創作與多功能協作
StableV2V是中國科技大學推出的開源視頻編輯項目,基于文本、草圖、圖片等輸入實現視頻中物體的精準編輯和替換。項目用形狀一致的編輯范式,基于三個主要組件...
RAG-Diffusion:區域感知文本到圖像生成技術的創新應用與優勢分析
RAG-Diffusion是南京大學團隊推出的區域感知文本到圖像生成方法。基于區域硬綁定和區域軟細化兩個階段,實現對圖像中各個區域的精確控制和細節優化。RAG-Diff...