AIGC動態歡迎閱讀
原標題:開放域檢測新SOTA!中山大學美團出品,開源性能最強
關鍵字:數據,圖像,文本,編碼器,類別
文章來源:量子位
內容字數:0字
內容摘要:
王豪 投稿自 凹非寺量子位 | 公眾號 QbitAI開放域檢測領域,迎來新進展——
中山大合美團提出新模型OV-DINO,實現開放域檢測開源新SOTA!
比Grounding DINO高12.7% AP,比YOLO-World 高4.7% AP。
目標檢測技術一直是研究的熱點。但傳統的目標檢測方法往往受限于預定義的類別集合,難以應對現實世界中種類繁多的物體。
為了突破這一限制,開放詞匯檢測(Open-Vocabulary Detection, OVD)應運而生。換言之,它能在模型在沒有預先定義類別的情況下,通過文本描述來識別和檢測物體。
OV-DINO是基于語言感知選擇性融合、統一的開放域檢測方法。作為最強開放域檢測開源模型,目前項目已公開論文和代碼,在線Demo也可體驗。
什么是OV-DINO?本文提出了一種名為OV-DINO的開放域檢測方法。
整體框架包括一個文本編碼器、一個圖像編碼器和一個檢測頭。模型接收圖像和提示文本作為輸入,通過特定模板創建統一的文本嵌入表示。
圖像和文本嵌入經過編碼器處理后,圖像嵌入通過Transformer編碼器生成精細化的圖像嵌入。
語言感知查詢選擇
原文鏈接:開放域檢測新SOTA!中山大學美團出品,開源性能最強
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...