CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù),華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù),華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE
關(guān)鍵字:目標(biāo),字節(jié)跳動(dòng),數(shù)據(jù),任務(wù),模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4201字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部近年來(lái),LLM 已經(jīng)一統(tǒng)所有文本任務(wù),展現(xiàn)了基礎(chǔ)模型的強(qiáng)大潛力。一些視覺(jué)基礎(chǔ)模型如 CLIP 在多模態(tài)理解任務(wù)上同樣展現(xiàn)出了強(qiáng)大的泛化能力,其統(tǒng)一的視覺(jué)語(yǔ)言空間帶動(dòng)了一系列多模態(tài)理解、生成、開(kāi)放詞表等任務(wù)的發(fā)展。然而針對(duì)更細(xì)粒度的目標(biāo)級(jí)別的感知任務(wù),目前依然缺乏一個(gè)強(qiáng)大的基礎(chǔ)模型。為了解決這個(gè)問(wèn)題,來(lái)自華中科技大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)針對(duì)視覺(jué)目標(biāo)的基礎(chǔ)模型 GLEE,一次性解決圖像和視頻中的幾乎所有目標(biāo)感知任務(wù)。GLEE 支持根據(jù)任意開(kāi)放詞表、目標(biāo)的外觀位置描述、和多種交互方式進(jìn)行目標(biāo)檢測(cè)、分割、跟蹤,并在實(shí)現(xiàn)全能性的同時(shí)保持 SOTA 性能。
此外,GLEE 還構(gòu)建了統(tǒng)一優(yōu)化目標(biāo)的訓(xùn)練框架,從超過(guò)一千萬(wàn)的多源數(shù)據(jù)中汲取知識(shí),實(shí)現(xiàn)對(duì)新數(shù)據(jù)和任務(wù)的零樣本遷移。并驗(yàn)證了多種數(shù)據(jù)之間相互促進(jìn)的能力。模型和訓(xùn)練代碼已全部開(kāi)源。論文標(biāo)題:GLEE: General Object Foundation Model for Images and Videos at Scale
論文地址:https://arxiv.org/abs/2312.09158
代碼地址:
原文鏈接:CVPR 2024 | 一統(tǒng)所有目標(biāo)感知任務(wù),華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)