視覺語言模型易受攻擊?西安交大等提出基于擴(kuò)散模型的對抗樣本生成新方法
本文提出了 AdvDiffVLM,一個高效框架,通過擴(kuò)散模型和得分匹配生成自然、無約束且具有針對性的對抗樣本。
原標(biāo)題:視覺語言模型易受攻擊?西安交大等提出基于擴(kuò)散模型的對抗樣本生成新方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7734字
高效生成視覺語言模型的針對性和可遷移對抗樣本
本文介紹了西安交通大學(xué)、南洋理工大學(xué)和新加坡科技管理局前沿研究中心的研究人員提出的一種高效方法AdvDiffVLM,用于生成針對視覺語言模型(VLMs)的對抗樣本。該方法利用擴(kuò)散模型和得分匹配技術(shù),顯著提高了對抗樣本的生成速度和遷移性,同時保持了較高的圖像質(zhì)量。
研究背景與動機(jī)
大型視覺語言模型(VLMs)在各種應(yīng)用中展現(xiàn)出強(qiáng)大的能力,但也面臨著對抗攻擊的威脅。評估VLMs的對抗魯棒性至關(guān)重要,而現(xiàn)有的基于遷移的對抗攻擊方法效率低、遷移性差,限制了其應(yīng)用。因此,本文旨在開發(fā)一種高效、高質(zhì)量且具有良好遷移性的對抗樣本生成方法。
方法概述:AdvDiffVLM
AdvDiffVLM利用擴(kuò)散模型生成對抗樣本。核心思想是通過自適應(yīng)集成梯度估計(AEGE)調(diào)整擴(kuò)散模型的反向生成過程中的得分函數(shù),確保生成的對抗樣本具有自然的針對性對抗語義,從而提高遷移性。此外,GradCAM引導(dǎo)的掩模生成(GCMG)模塊將對抗語義分散到整個圖像中,提高圖像質(zhì)量。通過多次迭代,進(jìn)一步增強(qiáng)目標(biāo)語義的嵌入效果。
核心技術(shù):AEGE和GCMG
自適應(yīng)集成梯度估計(AEGE)通過集成多個替代模型的梯度估計,并自適應(yīng)調(diào)整權(quán)重,提高得分估計的準(zhǔn)確性。GradCAM引導(dǎo)的掩模生成(GCMG)則利用GradCAM生成的掩碼,將對抗語義分散到整個圖像,提高對抗樣本的自然性和視覺質(zhì)量。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,AdvDiffVLM在生成速度和遷移性方面顯著優(yōu)于現(xiàn)有方法。在開源和商業(yè)VLMs(包括GPT-4V)上,AdvDiffVLM都取得了優(yōu)異的攻擊效果。此外,AdvDiffVLM生成的對抗樣本具有更高的圖像質(zhì)量,并能夠抵抗多種防御策略。
結(jié)論
AdvDiffVLM提供了一種高效、高質(zhì)量的對抗樣本生成方法,為評估VLMs的對抗魯棒性提供了強(qiáng)有力的工具。該方法在速度、遷移性和圖像質(zhì)量方面取得了顯著的提升,為未來研究提供了新的方向。
該研究成果已發(fā)表在計算機(jī)網(wǎng)絡(luò)信息安全領(lǐng)域頂級期刊IEEE TIFS上,論文和代碼均已公開。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
相關(guān)文章
