視覺(jué)語(yǔ)言模型安全升級(jí)，還不犧牲性能！技術(shù)解讀一文看懂｜淘天MMLab南大重大出品

概念瓶頸+漸進(jìn)式對(duì)齊

原標(biāo)題：視覺(jué)語(yǔ)言模型安全升級(jí)，還不犧牲性能！技術(shù)解讀一文看懂｜淘天MMLab 南大重大出品
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：8391字

淘天集團(tuán)聯(lián)合高校提出PSA-VLM：提升視覺(jué)語(yǔ)言模型安全性

隨著多模態(tài)AI的興起，視覺(jué)語(yǔ)言模型(VLM)的安全問(wèn)題日益突出。傳統(tǒng)方法難以有效應(yīng)對(duì)針對(duì)視覺(jué)模態(tài)的攻擊，導(dǎo)致模型生成有害內(nèi)容。為此，淘天集團(tuán)未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合學(xué)、重慶大學(xué)、港中文MMLab提出了一種名為PSA-VLM (Progressive Safety Alignment for Vision-Language Models) 的全新VLM安全對(duì)齊方法。

1. 視覺(jué)語(yǔ)言模型的安全隱憂

現(xiàn)有的VLM在處理包含敏感內(nèi)容的視覺(jué)輸入時(shí)存在安全漏洞。攻擊者可輕易繞過(guò)已有的安全機(jī)制，生成有害內(nèi)容，這嚴(yán)重威脅模型的社會(huì)應(yīng)用。現(xiàn)有防御方法通常基于直覺(jué)設(shè)計(jì)，且模型內(nèi)部機(jī)制難以理解和控制，缺乏可解釋性和可控性。

2. PSA-VLM：基于概念瓶頸的安全創(chuàng)新

PSA-VLM的核心創(chuàng)新在于引入了概念瓶頸模型(CBM)的思想。通過(guò)在視覺(jué)輸入和模型輸出之間引入一個(gè)可解釋的高階安全概念層，實(shí)現(xiàn)模型的透明化和可控性。該方法包含兩個(gè)關(guān)鍵組件：

顯式概念安全頭 (Explicit Concept Safety Head): 通過(guò)圖片和文本信息的交叉注意力，將視覺(jué)特征映射到具體的安全類(lèi)型(如NSFW)和風(fēng)險(xiǎn)等級(jí)，提供精細(xì)化的安全預(yù)測(cè)。
隱式概念安全標(biāo)記 (Implicit Concept Safety Tokens): 作為額外的訓(xùn)練令牌，直接嵌入視覺(jué)輸入中，提升模型對(duì)隱性風(fēng)險(xiǎn)信號(hào)的敏感度。

此外，PSA-VLM還包含安全投影器和文本-視覺(jué)對(duì)齊機(jī)制，共同構(gòu)成多模態(tài)協(xié)同的安全模塊，動(dòng)態(tài)引導(dǎo)模型在高風(fēng)險(xiǎn)場(chǎng)景中輸出安全響應(yīng)。

3. 兩階段訓(xùn)練策略與動(dòng)態(tài)安全控制

PSA-VLM采用兩階段訓(xùn)練策略：第一階段凍結(jié)大語(yǔ)言模型和視覺(jué)編碼器，僅訓(xùn)練安全模塊，專注于概念層次的風(fēng)險(xiǎn)識(shí)別與特征對(duì)齊；第二階段解凍大語(yǔ)言模型，將安全模塊與語(yǔ)言模型深度集成，進(jìn)一步提升跨模態(tài)輸入的安全性能。在推理階段，PSA-VLM利用安全頭的輸出動(dòng)態(tài)干預(yù)視覺(jué)內(nèi)容，確保對(duì)高風(fēng)險(xiǎn)內(nèi)容的安全響應(yīng)。

4. 性能評(píng)估與結(jié)果

研究團(tuán)隊(duì)從安全性能和通用領(lǐng)域性能兩個(gè)方面評(píng)估了PSA-VLM。結(jié)果表明，PSA-VLM在多個(gè)安全基準(zhǔn)上顯著優(yōu)于基線模型，尤其在有害、NSFW內(nèi)容和網(wǎng)絡(luò)欺凌檢測(cè)方面表現(xiàn)出色。同時(shí)，PSA-VLM在通用任務(wù)上的性能并未受到顯著影響，實(shí)現(xiàn)了安全性和通用能力的平衡。實(shí)驗(yàn)結(jié)果也驗(yàn)證了PSA-VLM在概念瓶頸層有效提取安全信息的能力。

5. 結(jié)論

PSA-VLM通過(guò)基于概念瓶頸模型的架構(gòu)創(chuàng)新，有效提升了VLM的安全性，同時(shí)保持了模型的通用任務(wù)能力。其可解釋性和可控性使其成為高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用的理想選擇，為多模態(tài)模型的安全對(duì)齊樹(shù)立了新標(biāo)桿。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 南大重大 # 性能不犧牲 # 模型升級(jí)# 淘天MMLab # 視覺(jué)語(yǔ)言模型安全

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

視覺(jué)語(yǔ)言模型安全升級(jí)，還不犧牲性能！技術(shù)解讀一文看懂｜淘天MMLab南大重大出品

概念瓶頸+漸進(jìn)式對(duì)齊

淘天集團(tuán)聯(lián)合高校提出PSA-VLM：提升視覺(jué)語(yǔ)言模型安全性

1. 視覺(jué)語(yǔ)言模型的安全隱憂

2. PSA-VLM：基于概念瓶頸的安全創(chuàng)新

3. 兩階段訓(xùn)練策略與動(dòng)態(tài)安全控制

4. 性能評(píng)估與結(jié)果

5. 結(jié)論

聯(lián)系作者

獨(dú)家：清華系A(chǔ)I Infra明星企業(yè)“清程極智”完成新一輪融資｜甲子光年

突破數(shù)據(jù)思維密度，僅4T數(shù)據(jù)讓8B模型逼近GPT-4o-mini

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)