AIGC動態歡迎閱讀
原標題:視覺定位新SOTA!華人團隊開源革新框架SegVG,邊界框轉為分割信號 | ECCV 2024
關鍵字:視覺,模型,目標,注釋,特征
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRST
【新智元導讀】SegVG是一種新的視覺定位方法,通過將邊界框注釋轉化為像素級分割信號來增強模型的監督信號,同時利用三重對齊模塊解決特征域差異問題,提升了定位準確性。實驗結果顯示,SegVG在多個標準數據集上超越了現有的最佳模型,證明了其在視覺定位任務中的有效性和實用性。視覺定位(Visual Grounding)旨在基于形式的自然語言文本表達定位圖像中的目標物體。
隨著多模態推理系統的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單階段方法和基于Transformer的方法。
盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現。
具體而言,視覺定位面臨的挑戰在于其稀疏的監督信號,每對文本和圖像僅提供一個邊界框標簽,與目標檢測任務(Object Detection)存在顯著不同,因此充分利用框注釋至關重要,將其視為分割掩膜(即邊界框內的像素賦值為1,外部像素賦值為0),可以為視覺定位提供更細粒度的像素級監督。
伊利諾伊理工學院、中佛羅里達大學的研
原文鏈接:視覺定位新SOTA!華人團隊開源革新框架SegVG,邊界框轉為分割信號 | ECCV 2024
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...