AIGC動態歡迎閱讀
原標題:CLIP當RNN用入選CVPR:無需訓練即可分割無數概念|牛津大學&谷歌研究院
關鍵字:解讀,文本,圖像,詞匯量,模型
文章來源:量子位
內容字數:0字
內容摘要:
K君 投稿量子位 | 公眾號 QbitAI循環調用CLIP,無需額外訓練就有效分割無數概念。
包括電影動漫人物,地標,品牌,和普通類別在內的任意短語。
牛津大學與谷歌研究院聯合團隊的這項新成果,已被CVPR 2024接收,并開源了代碼。
團隊提出名為CLIP as RNN(簡稱CaR)的新技術,解決了開放詞匯量圖像分割領域中的幾個關鍵問題:
無需訓練數據:傳統方法需要大量的掩膜注釋或圖像-文本數據集進行微調,CaR技術則無需任何額外的訓練數據即可工作。
開放詞匯量的限制:預訓練的視覺-語言模型(VLMs)在經過微調后,其處理開放詞匯量的能力受到限制。CaR技術保留了VLMs的廣泛詞匯空間。
對非圖像中概念的文本查詢處理:在沒有微調的情況下,VLMs難以對圖像中不存在的概念進行準確分割,CaR通過迭代過程逐步優化,提高了分割質量。
受RNN啟發,循環調用CLIP要理解CaR的原理,需要先回顧一下循環神經網絡RNN。
RNN引入了隱狀態(hidden state)的概念,就像是一個”記憶體”,存儲了過去時間步的信息。而且每個時間步共享同一組權重,可以很好地建模序列數據。
受RNN啟發,Ca
原文鏈接:CLIP當RNN用入選CVPR:無需訓練即可分割無數概念|牛津大學&谷歌研究院
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...