CLIP 樣本檢測(cè):揭示網(wǎng)絡(luò)數(shù)據(jù)集中的風(fēng)險(xiǎn)丨ICLR 2025
CLIP樣本檢測(cè)領(lǐng)域取得重要突破——5分鐘內(nèi)清洗百萬數(shù)據(jù),發(fā)現(xiàn)自然樣本并揭示OpenCLIP預(yù)訓(xùn)練模型中的風(fēng)險(xiǎn)。

原標(biāo)題:CLIP 樣本檢測(cè):揭示網(wǎng)絡(luò)數(shù)據(jù)集中的風(fēng)險(xiǎn)丨ICLR 2025
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):5590字
CLIP樣本檢測(cè)取得突破:5分鐘清洗百萬數(shù)據(jù),發(fā)現(xiàn)OpenCLIP模型
多模態(tài)模型,特別是CLIP模型,因其強(qiáng)大的性能而廣泛應(yīng)用,但也面臨著投毒的風(fēng)險(xiǎn)。墨爾本大學(xué)、復(fù)旦大學(xué)和新加坡管理大學(xué)的研究團(tuán)隊(duì)在CLIP樣本檢測(cè)領(lǐng)域取得重大突破,提出一種高效的輕量化方法,可在5分鐘內(nèi)清洗百萬級(jí)圖文數(shù)據(jù),并首次在真實(shí)數(shù)據(jù)集和開源模型中發(fā)現(xiàn)了自然存在的樣本。
研究背景:CLIP模型的風(fēng)險(xiǎn)
CLIP模型作為主流的多模態(tài)預(yù)訓(xùn)練范式,在視覺-語言任務(wù)中表現(xiàn)出色。然而,研究表明,攻擊者只需對(duì)極少量訓(xùn)練數(shù)據(jù)(例如0.01%)進(jìn)行投毒,即可在CLIP模型中植入,通過特定觸發(fā)器操控模型輸出,造成嚴(yán)重的安全隱患。
檢測(cè)方法:基于局部鄰域異常檢測(cè)
該研究團(tuán)隊(duì)通過分析干凈樣本和樣本的嵌入特征,發(fā)現(xiàn)樣本在嵌入空間中呈現(xiàn)局部鄰域稀疏分布,與干凈樣本的密集聚集形成鮮明對(duì)比。基于此,他們提出了一種基于局部鄰域異常檢測(cè)的方法。該方法通過計(jì)算k-dist、SLOF和DAO等指標(biāo)來量化樣本的異常程度,從而識(shí)別樣本(異常樣本)。 DAO指標(biāo)尤其在高維或復(fù)雜數(shù)據(jù)分布中表現(xiàn)出色,因?yàn)樗紤]了局部內(nèi)在維度,更準(zhǔn)確地識(shí)別異常點(diǎn)。
實(shí)驗(yàn)結(jié)果:高效且魯棒的檢測(cè)性能
實(shí)驗(yàn)結(jié)果表明,該方法在不同模型架構(gòu)、攻擊方式和觸發(fā)器類型下均表現(xiàn)出優(yōu)異的性能,其ROC曲線下面積(AUROC)遠(yuǎn)超現(xiàn)有方法。該方法在不同投毒率、多樣化數(shù)據(jù)集以及自適應(yīng)攻擊場(chǎng)景下也展現(xiàn)了強(qiáng)大的魯棒性。
真實(shí)世界發(fā)現(xiàn):CC3M數(shù)據(jù)集和OpenCLIP模型中的
研究團(tuán)隊(duì)在谷歌發(fā)布的CC3M數(shù)據(jù)集和熱門開源項(xiàng)目OpenCLIP的預(yù)訓(xùn)練模型中都發(fā)現(xiàn)了樣本。在CC3M數(shù)據(jù)集中,他們發(fā)現(xiàn)了約798張(0.03%)具有相似語義的圖像,這些圖像構(gòu)成了一個(gè)自然存在的。此外,他們?cè)贠penCLIP模型中成功提取了觸發(fā)器,并驗(yàn)證了其高達(dá)98.8%的攻擊成功率。研究還發(fā)現(xiàn),部分異常值最高的樣本是由于數(shù)據(jù)集中原始圖片鏈接失效或內(nèi)容被刪除造成的“占位”圖片。
總結(jié):高效、可靠的檢測(cè)方法及重要發(fā)現(xiàn)
這項(xiàng)研究提出了一種高效、可靠的大規(guī)模數(shù)據(jù)集輕量化檢測(cè)方法,并在真實(shí)世界數(shù)據(jù)和開源模型中發(fā)現(xiàn)了樣本,這為多模態(tài)大模型的安全研究提供了重要依據(jù)。該方法不僅能有效檢測(cè)樣本,還能識(shí)別無效或噪聲樣本,提升數(shù)據(jù)集質(zhì)量。這項(xiàng)工作對(duì)保障多模態(tài)模型的安全性具有重要意義。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號(hào)