視覺定位新SOTA！華人團隊開源革新框架SegVG，邊界框轉為分割信號 | ECCV 2024

AIGC動態歡迎閱讀

原標題：視覺定位新SOTA！華人團隊開源革新框架SegVG，邊界框轉為分割信號 | ECCV 2024
關鍵字：視覺,模型,目標,注釋,特征
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRST
【新智元導讀】SegVG是一種新的視覺定位方法，通過將邊界框注釋轉化為像素級分割信號來增強模型的監督信號，同時利用三重對齊模塊解決特征域差異問題，提升了定位準確性。實驗結果顯示，SegVG在多個標準數據集上超越了現有的最佳模型，證明了其在視覺定位任務中的有效性和實用性。視覺定位（Visual Grounding）旨在基于形式的自然語言文本表達定位圖像中的目標物體。
隨著多模態推理系統的普及，如視覺問答和圖像描述，視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類：兩階段方法、單階段方法和基于Transformer的方法。
盡管這些方法取得了良好的效果，但在注釋的利用上仍顯得不足，尤其是僅將框注釋作為回歸的真值樣本，限制了模型的性能表現。
具體而言，視覺定位面臨的挑戰在于其稀疏的監督信號，每對文本和圖像僅提供一個邊界框標簽，與目標檢測任務（Object Detection）存在顯著不同，因此充分利用框注釋至關重要，將其視為分割掩膜（即邊界框內的像素賦值為1，外部像素賦值為0），可以為視覺定位提供更細粒度的像素級監督。
伊利諾伊理工學院、中佛羅里達大學的研

原文鏈接：視覺定位新SOTA！華人團隊開源革新框架SegVG，邊界框轉為分割信號 | ECCV 2024