開放域檢測新SOTA！中山大學美團出品，開源性能最強

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：開放域檢測新SOTA！中山大學美團出品，開源性能最強
關鍵字：數據,圖像,文本,編碼器,類別
文章來源：量子位
內容字數：0字

內容摘要：

王豪投稿自凹非寺量子位 | 公眾號 QbitAI開放域檢測領域，迎來新進展——
中山大合美團提出新模型OV-DINO，實現開放域檢測開源新SOTA！
比Grounding DINO高12.7% AP，比YOLO-World 高4.7% AP。
目標檢測技術一直是研究的熱點。但傳統的目標檢測方法往往受限于預定義的類別集合，難以應對現實世界中種類繁多的物體。
為了突破這一限制，開放詞匯檢測（Open-Vocabulary Detection, OVD）應運而生。換言之，它能在模型在沒有預先定義類別的情況下，通過文本描述來識別和檢測物體。
OV-DINO是基于語言感知選擇性融合、統一的開放域檢測方法。作為最強開放域檢測開源模型，目前項目已公開論文和代碼，在線Demo也可體驗。
什么是OV-DINO？本文提出了一種名為OV-DINO的開放域檢測方法。
整體框架包括一個文本編碼器、一個圖像編碼器和一個檢測頭。模型接收圖像和提示文本作為輸入，通過特定模板創建統一的文本嵌入表示。
圖像和文本嵌入經過編碼器處理后，圖像嵌入通過Transformer編碼器生成精細化的圖像嵌入。
語言感知查詢選擇

原文鏈接：開放域檢測新SOTA！中山大學美團出品，開源性能最強