CLIP當(dāng)RNN用入選CVPR:無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念|牛津大學(xué)&谷歌研究院
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CLIP當(dāng)RNN用入選CVPR:無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念|牛津大學(xué)&谷歌研究院
關(guān)鍵字:解讀,文本,圖像,詞匯量,模型
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
K君 投稿量子位 | 公眾號(hào) QbitAI循環(huán)調(diào)用CLIP,無(wú)需額外訓(xùn)練就有效分割無(wú)數(shù)概念。
包括電影動(dòng)漫人物,地標(biāo),品牌,和普通類別在內(nèi)的任意短語(yǔ)。
牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊(duì)的這項(xiàng)新成果,已被CVPR 2024接收,并開源了代碼。
團(tuán)隊(duì)提出名為CLIP as RNN(簡(jiǎn)稱CaR)的新技術(shù),解決了開放詞匯量圖像分割領(lǐng)域中的幾個(gè)關(guān)鍵問題:
無(wú)需訓(xùn)練數(shù)據(jù):傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào),CaR技術(shù)則無(wú)需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
開放詞匯量的限制:預(yù)訓(xùn)練的視覺-語(yǔ)言模型(VLMs)在經(jīng)過(guò)微調(diào)后,其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
對(duì)非圖像中概念的文本查詢處理:在沒有微調(diào)的情況下,VLMs難以對(duì)圖像中不存在的概念進(jìn)行準(zhǔn)確分割,CaR通過(guò)迭代過(guò)程逐步優(yōu)化,提高了分割質(zhì)量。
受RNN啟發(fā),循環(huán)調(diào)用CLIP要理解CaR的原理,需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。
RNN引入了隱狀態(tài)(hidden state)的概念,就像是一個(gè)”記憶體”,存儲(chǔ)了過(guò)去時(shí)間步的信息。而且每個(gè)時(shí)間步共享同一組權(quán)重,可以很好地建模序列數(shù)據(jù)。
受RNN啟發(fā),Ca
原文鏈接:CLIP當(dāng)RNN用入選CVPR:無(wú)需訓(xùn)練即可分割無(wú)數(shù)概念|牛津大學(xué)&谷歌研究院
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破