視覺(jué)語(yǔ)言模型安全升級(jí),還不犧牲性能!技術(shù)解讀一文看懂|淘天MMLab南大重大出品
概念瓶頸+漸進(jìn)式對(duì)齊
原標(biāo)題:視覺(jué)語(yǔ)言模型安全升級(jí),還不犧牲性能!技術(shù)解讀一文看懂|淘天MMLab南大重大出品
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):8391字
淘天集團(tuán)聯(lián)合高校提出PSA-VLM:提升視覺(jué)語(yǔ)言模型安全性
隨著多模態(tài)AI的興起,視覺(jué)語(yǔ)言模型(VLM)的安全問(wèn)題日益突出。傳統(tǒng)方法難以有效應(yīng)對(duì)針對(duì)視覺(jué)模態(tài)的攻擊,導(dǎo)致模型生成有害內(nèi)容。為此,淘天集團(tuán)未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合學(xué)、重慶大學(xué)、港中文MMLab提出了一種名為PSA-VLM (Progressive Safety Alignment for Vision-Language Models) 的全新VLM安全對(duì)齊方法。
1. 視覺(jué)語(yǔ)言模型的安全隱憂
現(xiàn)有的VLM在處理包含敏感內(nèi)容的視覺(jué)輸入時(shí)存在安全漏洞。攻擊者可輕易繞過(guò)已有的安全機(jī)制,生成有害內(nèi)容,這嚴(yán)重威脅模型的社會(huì)應(yīng)用。現(xiàn)有防御方法通常基于直覺(jué)設(shè)計(jì),且模型內(nèi)部機(jī)制難以理解和控制,缺乏可解釋性和可控性。
2. PSA-VLM:基于概念瓶頸的安全創(chuàng)新
PSA-VLM的核心創(chuàng)新在于引入了概念瓶頸模型(CBM)的思想。通過(guò)在視覺(jué)輸入和模型輸出之間引入一個(gè)可解釋的高階安全概念層,實(shí)現(xiàn)模型的透明化和可控性。該方法包含兩個(gè)關(guān)鍵組件:
顯式概念安全頭 (Explicit Concept Safety Head): 通過(guò)圖片和文本信息的交叉注意力,將視覺(jué)特征映射到具體的安全類(lèi)型(如NSFW)和風(fēng)險(xiǎn)等級(jí),提供精細(xì)化的安全預(yù)測(cè)。
隱式概念安全標(biāo)記 (Implicit Concept Safety Tokens): 作為額外的訓(xùn)練令牌,直接嵌入視覺(jué)輸入中,提升模型對(duì)隱性風(fēng)險(xiǎn)信號(hào)的敏感度。
此外,PSA-VLM還包含安全投影器和文本-視覺(jué)對(duì)齊機(jī)制,共同構(gòu)成多模態(tài)協(xié)同的安全模塊,動(dòng)態(tài)引導(dǎo)模型在高風(fēng)險(xiǎn)場(chǎng)景中輸出安全響應(yīng)。
3. 兩階段訓(xùn)練策略與動(dòng)態(tài)安全控制
PSA-VLM采用兩階段訓(xùn)練策略:第一階段凍結(jié)大語(yǔ)言模型和視覺(jué)編碼器,僅訓(xùn)練安全模塊,專注于概念層次的風(fēng)險(xiǎn)識(shí)別與特征對(duì)齊;第二階段解凍大語(yǔ)言模型,將安全模塊與語(yǔ)言模型深度集成,進(jìn)一步提升跨模態(tài)輸入的安全性能。在推理階段,PSA-VLM利用安全頭的輸出動(dòng)態(tài)干預(yù)視覺(jué)內(nèi)容,確保對(duì)高風(fēng)險(xiǎn)內(nèi)容的安全響應(yīng)。
4. 性能評(píng)估與結(jié)果
研究團(tuán)隊(duì)從安全性能和通用領(lǐng)域性能兩個(gè)方面評(píng)估了PSA-VLM。結(jié)果表明,PSA-VLM在多個(gè)安全基準(zhǔn)上顯著優(yōu)于基線模型,尤其在有害、NSFW內(nèi)容和網(wǎng)絡(luò)欺凌檢測(cè)方面表現(xiàn)出色。同時(shí),PSA-VLM在通用任務(wù)上的性能并未受到顯著影響,實(shí)現(xiàn)了安全性和通用能力的平衡。實(shí)驗(yàn)結(jié)果也驗(yàn)證了PSA-VLM在概念瓶頸層有效提取安全信息的能力。
5. 結(jié)論
PSA-VLM通過(guò)基于概念瓶頸模型的架構(gòu)創(chuàng)新,有效提升了VLM的安全性,同時(shí)保持了模型的通用任務(wù)能力。其可解釋性和可控性使其成為高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用的理想選擇,為多模態(tài)模型的安全對(duì)齊樹(shù)立了新標(biāo)桿。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破