視覺(jué)定位新SOTA!華人團(tuán)隊(duì)開(kāi)源革新框架SegVG,邊界框轉(zhuǎn)為分割信號(hào) | ECCV 2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視覺(jué)定位新SOTA!華人團(tuán)隊(duì)開(kāi)源革新框架SegVG,邊界框轉(zhuǎn)為分割信號(hào) | ECCV 2024
關(guān)鍵字:視覺(jué),模型,目標(biāo),注釋,特征
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRST
【新智元導(dǎo)讀】SegVG是一種新的視覺(jué)定位方法,通過(guò)將邊界框注釋轉(zhuǎn)化為像素級(jí)分割信號(hào)來(lái)增強(qiáng)模型的監(jiān)督信號(hào),同時(shí)利用三重對(duì)齊模塊解決特征域差異問(wèn)題,提升了定位準(zhǔn)確性。實(shí)驗(yàn)結(jié)果顯示,SegVG在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上超越了現(xiàn)有的最佳模型,證明了其在視覺(jué)定位任務(wù)中的有效性和實(shí)用性。視覺(jué)定位(Visual Grounding)旨在基于形式的自然語(yǔ)言文本表達(dá)定位圖像中的目標(biāo)物體。
隨著多模態(tài)推理系統(tǒng)的普及,如視覺(jué)問(wèn)答和圖像描述,視覺(jué)定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單階段方法和基于Transformer的方法。
盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現(xiàn)。
具體而言,視覺(jué)定位面臨的挑戰(zhàn)在于其稀疏的監(jiān)督信號(hào),每對(duì)文本和圖像僅提供一個(gè)邊界框標(biāo)簽,與目標(biāo)檢測(cè)任務(wù)(Object Detection)存在顯著不同,因此充分利用框注釋至關(guān)重要,將其視為分割掩膜(即邊界框內(nèi)的像素賦值為1,外部像素賦值為0),可以為視覺(jué)定位提供更細(xì)粒度的像素級(jí)監(jiān)督。
伊利諾伊理工學(xué)院、中佛羅里達(dá)大學(xué)的研
原文鏈接:視覺(jué)定位新SOTA!華人團(tuán)隊(duì)開(kāi)源革新框架SegVG,邊界框轉(zhuǎn)為分割信號(hào) | ECCV 2024
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: