AIGC動態歡迎閱讀
原標題:CVPR 2024 | 一統所有目標感知任務,華科&字節提出目標感知基礎模型GLEE
關鍵字:目標,字節跳動,數據,任務,模型
文章來源:機器之心
內容字數:4201字
內容摘要:
機器之心專欄
機器之心編輯部近年來,LLM 已經一統所有文本任務,展現了基礎模型的強大潛力。一些視覺基礎模型如 CLIP 在多模態理解任務上同樣展現出了強大的泛化能力,其統一的視覺語言空間帶動了一系列多模態理解、生成、開放詞表等任務的發展。然而針對更細粒度的目標級別的感知任務,目前依然缺乏一個強大的基礎模型。為了解決這個問題,來自華中科技大學和字節跳動的研究團隊提出了一個針對視覺目標的基礎模型 GLEE,一次性解決圖像和視頻中的幾乎所有目標感知任務。GLEE 支持根據任意開放詞表、目標的外觀位置描述、和多種交互方式進行目標檢測、分割、跟蹤,并在實現全能性的同時保持 SOTA 性能。
此外,GLEE 還構建了統一優化目標的訓練框架,從超過一千萬的多源數據中汲取知識,實現對新數據和任務的零樣本遷移。并驗證了多種數據之間相互促進的能力。模型和訓練代碼已全部開源。論文標題:GLEE: General Object Foundation Model for Images and Videos at Scale
論文地址:https://arxiv.org/abs/2312.09158
代碼地址:
原文鏈接:CVPR 2024 | 一統所有目標感知任務,華科&字節提出目標感知基礎模型GLEE
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...