CLIP樣本檢測領域取得重要突破——5分鐘內清洗百萬數據,發現自然樣本并揭示OpenCLIP預訓練模型中的風險。
原標題:CLIP 樣本檢測:揭示網絡數據集中的風險丨ICLR 2025
文章來源:AI科技評論
內容字數:5590字
CLIP樣本檢測取得突破:5分鐘清洗百萬數據,發現OpenCLIP模型
多模態模型,特別是CLIP模型,因其強大的性能而廣泛應用,但也面臨著投毒的風險。墨爾本大學、復旦大學和新加坡管理大學的研究團隊在CLIP樣本檢測領域取得重大突破,提出一種高效的輕量化方法,可在5分鐘內清洗百萬級圖文數據,并首次在真實數據集和開源模型中發現了自然存在的樣本。
研究背景:CLIP模型的風險
CLIP模型作為主流的多模態預訓練范式,在視覺-語言任務中表現出色。然而,研究表明,攻擊者只需對極少量訓練數據(例如0.01%)進行投毒,即可在CLIP模型中植入,通過特定觸發器操控模型輸出,造成嚴重的安全隱患。
檢測方法:基于局部鄰域異常檢測
該研究團隊通過分析干凈樣本和樣本的嵌入特征,發現樣本在嵌入空間中呈現局部鄰域稀疏分布,與干凈樣本的密集聚集形成鮮明對比。基于此,他們提出了一種基于局部鄰域異常檢測的方法。該方法通過計算k-dist、SLOF和DAO等指標來量化樣本的異常程度,從而識別樣本(異常樣本)。 DAO指標尤其在高維或復雜數據分布中表現出色,因為它考慮了局部內在維度,更準確地識別異常點。
實驗結果:高效且魯棒的檢測性能
實驗結果表明,該方法在不同模型架構、攻擊方式和觸發器類型下均表現出優異的性能,其ROC曲線下面積(AUROC)遠超現有方法。該方法在不同投毒率、多樣化數據集以及自適應攻擊場景下也展現了強大的魯棒性。
真實世界發現:CC3M數據集和OpenCLIP模型中的
研究團隊在谷歌發布的CC3M數據集和熱門開源項目OpenCLIP的預訓練模型中都發現了樣本。在CC3M數據集中,他們發現了約798張(0.03%)具有相似語義的圖像,這些圖像構成了一個自然存在的。此外,他們在OpenCLIP模型中成功提取了觸發器,并驗證了其高達98.8%的攻擊成功率。研究還發現,部分異常值最高的樣本是由于數據集中原始圖片鏈接失效或內容被刪除造成的“占位”圖片。
總結:高效、可靠的檢測方法及重要發現
這項研究提出了一種高效、可靠的大規模數據集輕量化檢測方法,并在真實世界數據和開源模型中發現了樣本,這為多模態大模型的安全研究提供了重要依據。該方法不僅能有效檢測樣本,還能識別無效或噪聲樣本,提升數據集質量。這項工作對保障多模態模型的安全性具有重要意義。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。