CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù)，華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù)，華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE
關(guān)鍵字：目標(biāo),字節(jié)跳動(dòng),數(shù)據(jù),任務(wù),模型
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4201字

內(nèi)容摘要：

機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部近年來(lái)，LLM 已經(jīng)一統(tǒng)所有文本任務(wù)，展現(xiàn)了基礎(chǔ)模型的強(qiáng)大潛力。一些視覺(jué)基礎(chǔ)模型如 CLIP 在多模態(tài)理解任務(wù)上同樣展現(xiàn)出了強(qiáng)大的泛化能力，其統(tǒng)一的視覺(jué)語(yǔ)言空間帶動(dòng)了一系列多模態(tài)理解、生成、開(kāi)放詞表等任務(wù)的發(fā)展。然而針對(duì)更細(xì)粒度的目標(biāo)級(jí)別的感知任務(wù)，目前依然缺乏一個(gè)強(qiáng)大的基礎(chǔ)模型。為了解決這個(gè)問(wèn)題，來(lái)自華中科技大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)針對(duì)視覺(jué)目標(biāo)的基礎(chǔ)模型 GLEE，一次性解決圖像和視頻中的幾乎所有目標(biāo)感知任務(wù)。GLEE 支持根據(jù)任意開(kāi)放詞表、目標(biāo)的外觀位置描述、和多種交互方式進(jìn)行目標(biāo)檢測(cè)、分割、跟蹤，并在實(shí)現(xiàn)全能性的同時(shí)保持 SOTA 性能。
此外，GLEE 還構(gòu)建了統(tǒng)一優(yōu)化目標(biāo)的訓(xùn)練框架，從超過(guò)一千萬(wàn)的多源數(shù)據(jù)中汲取知識(shí)，實(shí)現(xiàn)對(duì)新數(shù)據(jù)和任務(wù)的零樣本遷移。并驗(yàn)證了多種數(shù)據(jù)之間相互促進(jìn)的能力。模型和訓(xùn)練代碼已全部開(kāi)源。論文標(biāo)題：GLEE: General Object Foundation Model for Images and Videos at Scale
論文地址：https://arxiv.org/abs/2312.09158
代碼地址：

原文鏈接：CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù)，華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE