概念瓶頸+漸進式對齊
原標題:視覺語言模型安全升級,還不犧牲性能!技術解讀一文看懂|淘天MMLab南大重大出品
文章來源:量子位
內容字數:8391字
淘天集團聯合高校提出PSA-VLM:提升視覺語言模型安全性
隨著多模態AI的興起,視覺語言模型(VLM)的安全問題日益突出。傳統方法難以有效應對針對視覺模態的攻擊,導致模型生成有害內容。為此,淘天集團未來生活實驗室團隊聯合學、重慶大學、港中文MMLab提出了一種名為PSA-VLM (Progressive Safety Alignment for Vision-Language Models) 的全新VLM安全對齊方法。
1. 視覺語言模型的安全隱憂
現有的VLM在處理包含敏感內容的視覺輸入時存在安全漏洞。攻擊者可輕易繞過已有的安全機制,生成有害內容,這嚴重威脅模型的社會應用?,F有防御方法通常基于直覺設計,且模型內部機制難以理解和控制,缺乏可解釋性和可控性。
2. PSA-VLM:基于概念瓶頸的安全創新
PSA-VLM的核心創新在于引入了概念瓶頸模型(CBM)的思想。通過在視覺輸入和模型輸出之間引入一個可解釋的高階安全概念層,實現模型的透明化和可控性。該方法包含兩個關鍵組件:
顯式概念安全頭 (Explicit Concept Safety Head): 通過圖片和文本信息的交叉注意力,將視覺特征映射到具體的安全類型(如NSFW)和風險等級,提供精細化的安全預測。
隱式概念安全標記 (Implicit Concept Safety Tokens): 作為額外的訓練令牌,直接嵌入視覺輸入中,提升模型對隱性風險信號的敏感度。
此外,PSA-VLM還包含安全投影器和文本-視覺對齊機制,共同構成多模態協同的安全模塊,動態引導模型在高風險場景中輸出安全響應。
3. 兩階段訓練策略與動態安全控制
PSA-VLM采用兩階段訓練策略:第一階段凍結大語言模型和視覺編碼器,僅訓練安全模塊,專注于概念層次的風險識別與特征對齊;第二階段解凍大語言模型,將安全模塊與語言模型深度集成,進一步提升跨模態輸入的安全性能。在推理階段,PSA-VLM利用安全頭的輸出動態干預視覺內容,確保對高風險內容的安全響應。
4. 性能評估與結果
研究團隊從安全性能和通用領域性能兩個方面評估了PSA-VLM。結果表明,PSA-VLM在多個安全基準上顯著優于基線模型,尤其在有害、NSFW內容和網絡欺凌檢測方面表現出色。同時,PSA-VLM在通用任務上的性能并未受到顯著影響,實現了安全性和通用能力的平衡。實驗結果也驗證了PSA-VLM在概念瓶頸層有效提取安全信息的能力。
5. 結論
PSA-VLM通過基于概念瓶頸模型的架構創新,有效提升了VLM的安全性,同時保持了模型的通用任務能力。其可解釋性和可控性使其成為高風險領域應用的理想選擇,為多模態模型的安全對齊樹立了新標桿。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破