告別逐一標(biāo)注，一個(gè)提示實(shí)現(xiàn)批量圖片分割，高效又準(zhǔn)確

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：告別逐一標(biāo)注，一個(gè)提示實(shí)現(xiàn)批量圖片分割，高效又準(zhǔn)確
關(guān)鍵字：提示,任務(wù),作者,樣本,物體
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6263字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部?jī)H需一個(gè)任務(wù)描述，即可一鍵分割所有圖片！
Segment Anything Model (SAM) 的提出在圖像分割領(lǐng)域引起了巨大的關(guān)注，其卓越的泛化性能引發(fā)了廣泛的興趣。然而，盡管如此，SAM 仍然面臨一個(gè)無法回避的問題：為了使 SAM 能夠準(zhǔn)確地分割出目標(biāo)物體的位置，每張圖片都需要手動(dòng)提供一個(gè)獨(dú)特的視覺提示。如下圖所示，即使點(diǎn)擊的是同一物體（圖 (b)-(d)），微小位置變化都會(huì)導(dǎo)致分割結(jié)果的顯著差異。這是因?yàn)橐曈X提示缺乏語義信息，即使提示在想要分割的目標(biāo)物體上，仍然可能引發(fā)歧義。框提示和涂鴉提示（圖 (e)(f)）雖然提供了更具體的位置信息，但由于機(jī)器和人類對(duì)目標(biāo)分割物的理解存在偏差，效果常常與期望有所出入。目前的一些方法，如 SEEM 和 AV-SAM，通過提供更多模態(tài)的輸入信息來引導(dǎo)模型更好地理解要分割的物體是什么。然而，盡管輸入信息變得更加具體和多樣化，但在實(shí)際場(chǎng)景中，每個(gè)無標(biāo)注樣本仍然需要一個(gè)獨(dú)特的提示來作為指導(dǎo)，這是一種不切實(shí)際的需求。理想情況下，作者希望告知機(jī)器當(dāng)前的無標(biāo)注數(shù)據(jù)都是采集自于什么任務(wù)，然后期望機(jī)器能夠批量地按照作者的要求對(duì)這些

原文鏈接：告別逐一標(biāo)注，一個(gè)提示實(shí)現(xiàn)批量圖片分割，高效又準(zhǔn)確