標(biāo)簽：多模態(tài)學(xué)習(xí)

VideoVAE+（VideoVAE Plus）是香港科技大學(xué)團(tuán)隊(duì)推出的先進(jìn)的跨模態(tài)視頻變分自編碼器（Video VAE），通過(guò)引入新的時(shí)空分離壓縮機(jī)制和文本指導(dǎo)，實(shí)現(xiàn)了對(duì)大幅運(yùn)...

閱讀原文

AI工具

11個(gè)月前

什么是視覺(jué)語(yǔ)言模型（Vision-Language Models, VLMs）

視覺(jué)語(yǔ)言模型（Vision-Language Models, VLMs）是一種多模態(tài)人工智能系統(tǒng)，它結(jié)合了圖像和文本的處理能力，以執(zhí)行高級(jí)視覺(jué)語(yǔ)言任務(wù)，如視覺(jué)問(wèn)答（Visual Ques...

閱讀原文

AI百科

11個(gè)月前

行人、車(chē)輛、動(dòng)物等ReID最新綜述！武大等全面總結(jié)Transformer方法 | IJCV 2024

原標(biāo)題：行人、車(chē)輛、動(dòng)物等ReID最新綜述！武大等全面總結(jié)Transformer方法 | IJCV 2024 文章來(lái)源：新智元內(nèi)容字?jǐn)?shù)：7928字Transformer在目標(biāo)重識(shí)別 (Re-ID) ...

閱讀原文

AIGC動(dòng)態(tài)

11個(gè)月前

揭開(kāi)未來(lái)之門(mén)：Llama2024年度亮點(diǎn)全解析

原標(biāo)題：Llama2024年度要點(diǎn)總結(jié) 文章來(lái)源：人工智能學(xué)家內(nèi)容字?jǐn)?shù)：7315字2024年Llama項(xiàng)目進(jìn)展概述隨著2024年的結(jié)束，Llama項(xiàng)目在全球范圍內(nèi)取得了顯著的進(jìn)...

閱讀原文

AIGC動(dòng)態(tài)

11個(gè)月前

DeepSeek 怒搶視覺(jué)對(duì)話王座！DeepSeek-VL2 發(fā)布即開(kāi)源，技術(shù)全公開(kāi)

原標(biāo)題：DeepSeek 怒搶視覺(jué)對(duì)話王座！DeepSeek-VL2 發(fā)布即開(kāi)源，技術(shù)全公開(kāi) 文章來(lái)源：夕小瑤科技說(shuō) 內(nèi)容字?jǐn)?shù)：6315字DeepSeek-VL2：國(guó)內(nèi)大模型領(lǐng)域的“拼多多...

閱讀原文

AIGC動(dòng)態(tài)

11個(gè)月前

解鎖多模態(tài)大模型的潛力：OCR VLM的性應(yīng)用與未來(lái)展望

通過(guò)VLM范式解決OCR任務(wù)的工作~

閱讀原文

AIGC動(dòng)態(tài)

11個(gè)月前

跨越邊界：解密多模態(tài)大模型的對(duì)齊策略與創(chuàng)新潛力

探索不同的對(duì)齊方法對(duì)MLLMs性能的影響~

閱讀原文

AIGC動(dòng)態(tài)

12個(gè)月前

解鎖復(fù)雜數(shù)學(xué)推理的秘密：通過(guò)多模態(tài)慢思考逐步拆解原子步驟

該方法在解決問(wèn)題的每一步都始終保持著較高的推理質(zhì)量。

閱讀原文

AIGC動(dòng)態(tài)

12個(gè)月前

SmolVLM：輕量級(jí)視覺(jué)語(yǔ)言模型助力多模態(tài)任務(wù)的高效解決方案

SmolVLM是Hugging Face推出的輕量級(jí)視覺(jué)語(yǔ)言模型，專(zhuān)為設(shè)備端推理設(shè)計(jì)。以20億參數(shù)量，實(shí)現(xiàn)了高效內(nèi)存占用和快速處理速度。SmolVLM提供了三個(gè)版本以滿足不同...

閱讀原文

AI工具

12個(gè)月前

StableV2V：中國(guó)科技大學(xué)開(kāi)源視頻編輯工具實(shí)現(xiàn)高效創(chuàng)作與多功能協(xié)作

StableV2V是中國(guó)科技大學(xué)推出的開(kāi)源視頻編輯項(xiàng)目，基于文本、草圖、圖片等輸入實(shí)現(xiàn)視頻中物體的精準(zhǔn)編輯和替換。項(xiàng)目用形狀一致的編輯范式，基于三個(gè)主要組件...

閱讀原文

AI工具

12個(gè)月前

RAG-Diffusion：區(qū)域感知文本到圖像生成技術(shù)的創(chuàng)新應(yīng)用與優(yōu)勢(shì)分析

RAG-Diffusion是南京大學(xué)團(tuán)隊(duì)推出的區(qū)域感知文本到圖像生成方法。基于區(qū)域硬綁定和區(qū)域軟細(xì)化兩個(gè)階段，實(shí)現(xiàn)對(duì)圖像中各個(gè)區(qū)域的精確控制和細(xì)節(jié)優(yōu)化。RAG-Diff...

閱讀原文

AI工具

12個(gè)月前

123 4