CLIP當(dāng)RNN用入選CVPR：無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念｜牛津大學(xué)&谷歌研究院

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：CLIP當(dāng)RNN用入選CVPR：無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念｜牛津大學(xué)&谷歌研究院
關(guān)鍵字：解讀,文本,圖像,詞匯量,模型
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

K君投稿量子位 | 公眾號(hào) QbitAI循環(huán)調(diào)用CLIP，無(wú)需額外訓(xùn)練就有效分割無(wú)數(shù)概念。
包括電影動(dòng)漫人物，地標(biāo)，品牌，和普通類別在內(nèi)的任意短語(yǔ)。
牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊(duì)的這項(xiàng)新成果，已被CVPR 2024接收，并開源了代碼。
團(tuán)隊(duì)提出名為CLIP as RNN（簡(jiǎn)稱CaR）的新技術(shù)，解決了開放詞匯量圖像分割領(lǐng)域中的幾個(gè)關(guān)鍵問題：
無(wú)需訓(xùn)練數(shù)據(jù)：傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào)，CaR技術(shù)則無(wú)需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
開放詞匯量的限制：預(yù)訓(xùn)練的視覺-語(yǔ)言模型（VLMs）在經(jīng)過(guò)微調(diào)后，其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
對(duì)非圖像中概念的文本查詢處理：在沒有微調(diào)的情況下，VLMs難以對(duì)圖像中不存在的概念進(jìn)行準(zhǔn)確分割，CaR通過(guò)迭代過(guò)程逐步優(yōu)化，提高了分割質(zhì)量。
受RNN啟發(fā)，循環(huán)調(diào)用CLIP要理解CaR的原理，需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。
RNN引入了隱狀態(tài)(hidden state)的概念，就像是一個(gè)”記憶體”，存儲(chǔ)了過(guò)去時(shí)間步的信息。而且每個(gè)時(shí)間步共享同一組權(quán)重，可以很好地建模序列數(shù)據(jù)。
受RNN啟發(fā)，Ca

原文鏈接：CLIP當(dāng)RNN用入選CVPR：無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念｜牛津大學(xué)&谷歌研究院