隨意指定CLIP關注區域！上交復旦等發布Alpha-CLIP：同時保持全圖+局部檢測能力

AIGC動態2年前 (2023)發布新智元

AIGC動態歡迎閱讀

原標題：隨意指定CLIP關注區域！上交復旦等發布Alpha-CLIP：同時保持全圖+局部檢測能力

文章來源：新智元

內容字數：4387字

內容摘要：新智元報道編輯：LRS【新智元導讀】本文介紹了一個名為Alph-CLIP的框架，它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個alpha通道。在千萬量級的RGBA-region的圖像文本對上進行訓練后，Alpha-CLIP可以在保證CLIP原始感知能力的前提下，關注到任意指定區域。通過替換原始CLIP的應用場景，Alpha-CLIP在圖像識別、視覺-語言大模型、2D乃至3D生成領域都展現出強大作用。CLIP是目前最流行的視覺基座模型，其應用場景包括但不限于：與LLM大語言模型結合成為視覺多模態大模型；作為圖像生成(Stable Diffusion)、點云生成(Point-E)的condition model，實現image-to-3D；用于指導NeRF的優化方向從而實現text-to-3D；本身用于開放類別的識別和檢測。但CLIP必須以整張圖片作為輸入并進行特征提取，無法關…

原文鏈接：點此閱讀原文：隨意指定CLIP關注區域！上交復旦等發布Alpha-CLIP：同時保持全圖+局部檢測能力