標簽:多模態學習

FlexRAG

FlexRAG 是創新的檢索增強生成(RAG)框架,旨在解決傳統 RAG 系統在處理長上下文時面臨的計算成本高和生成質量不足的問題。通過將檢索到的上下文信息壓縮成...
閱讀原文

什么是視頻擴散模型(Video Diffusion Models, VDM)

視頻擴散模型(Video Diffusion Models, VDM)是一種結合了變分自編碼器(VAE)和擴散模型優勢的生成模型。VDM的核心思想是在潛在空間中進行擴散過程,而不是...
閱讀原文

田淵棟:2024年年終總結

原標題:田淵棟:2024年年終總結 文章來源:新智元 內容字數:7452字田淵棟2024年AI研究總結及2025年展望 本文總結了田淵棟博士2024年在人工智能領域的研究...
閱讀原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大學團隊推出的先進的跨模態視頻變分自編碼器(Video VAE),通過引入新的時空分離壓縮機制和文本指導,實現了對大幅運...
閱讀原文

什么是視覺語言模型(Vision-Language Models, VLMs)

視覺語言模型(Vision-Language Models, VLMs)是一種多模態人工智能系統,它結合了圖像和文本的處理能力,以執行高級視覺語言任務,如視覺問答(Visual Ques...
閱讀原文

行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法 | IJCV 2024

原標題:行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法 | IJCV 2024 文章來源:新智元 內容字數:7928字Transformer在目標重識別 (Re-ID) ...
閱讀原文

揭開未來之門:Llama2024年度亮點全解析

原標題:Llama2024年度要點總結 文章來源:人工智能學家 內容字數:7315字2024年Llama項目進展概述 隨著2024年的結束,Llama項目在全球范圍內取得了顯著的進...
閱讀原文

DeepSeek 怒搶視覺對話王座!DeepSeek-VL2 發布即開源,技術全公開

原標題:DeepSeek 怒搶視覺對話王座!DeepSeek-VL2 發布即開源,技術全公開 文章來源:夕小瑤科技說 內容字數:6315字DeepSeek-VL2:國內大模型領域的“拼多多...
閱讀原文

跨越邊界:解密多模態大模型的對齊策略與創新潛力

探索不同的對齊方法對MLLMs性能的影響~
閱讀原文

解鎖復雜數學推理的秘密:通過多模態慢思考逐步拆解原子步驟

該方法在解決問題的每一步都始終保持著較高的推理質量。
閱讀原文

SmolVLM:輕量級視覺語言模型助力多模態任務的高效解決方案

SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設備端推理設計。以20億參數量,實現了高效內存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同...
閱讀原文

StableV2V:中國科技大學開源視頻編輯工具實現高效創作與多功能協作

StableV2V是中國科技大學推出的開源視頻編輯項目,基于文本、草圖、圖片等輸入實現視頻中物體的精準編輯和替換。項目用形狀一致的編輯范式,基于三個主要組件...
閱讀原文

RAG-Diffusion:區域感知文本到圖像生成技術的創新應用與優勢分析

RAG-Diffusion是南京大學團隊推出的區域感知文本到圖像生成方法。基于區域硬綁定和區域軟細化兩個階段,實現對圖像中各個區域的精確控制和細節優化。RAG-Diff...
閱讀原文
1234