<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        視覺語言模型安全升級,還不犧牲性能!技術解讀一文看懂|淘天MMLab南大重大出品

        AIGC動態(tài)8個月前發(fā)布 量子位
        251 0 0

        概念瓶頸+漸進式對齊

        視覺語言模型安全升級,還不犧牲性能!技術解讀一文看懂|淘天MMLab南大重大出品

        原標題:視覺語言模型安全升級,還不犧牲性能!技術解讀一文看懂|淘天MMLab南大重大出品
        文章來源:量子位
        內(nèi)容字數(shù):8391字

        淘天集團聯(lián)合高校提出PSA-VLM:提升視覺語言模型安全性

        隨著多模態(tài)AI的興起,視覺語言模型(VLM)的安全問題日益突出。傳統(tǒng)方法難以有效應對針對視覺模態(tài)的攻擊,導致模型生成有害內(nèi)容。為此,淘天集團未來生活實驗室團隊聯(lián)合學、重慶大學、港中文MMLab提出了一種名為PSA-VLM (Progressive Safety Alignment for Vision-Language Models) 的全新VLM安全對齊方法。

        1. 視覺語言模型的安全隱憂

        現(xiàn)有的VLM在處理包含敏感內(nèi)容的視覺輸入時存在安全漏洞。攻擊者可輕易繞過已有的安全機制,生成有害內(nèi)容,這嚴重威脅模型的社會應用。現(xiàn)有防御方法通常基于直覺設計,且模型內(nèi)部機制難以理解和控制,缺乏可解釋性和可控性。

        2. PSA-VLM:基于概念瓶頸的安全創(chuàng)新

        PSA-VLM的核心創(chuàng)新在于引入了概念瓶頸模型(CBM)的思想。通過在視覺輸入和模型輸出之間引入一個可解釋的高階安全概念層,實現(xiàn)模型的透明化和可控性。該方法包含兩個關鍵組件:

        1. 顯式概念安全頭 (Explicit Concept Safety Head): 通過圖片和文本信息的交叉注意力,將視覺特征映射到具體的安全類型(如NSFW)和風險等級,提供精細化的安全預測。

        2. 隱式概念安全標記 (Implicit Concept Safety Tokens): 作為額外的訓練令牌,直接嵌入視覺輸入中,提升模型對隱性風險信號的敏感度。

        此外,PSA-VLM還包含安全投影器和文本-視覺對齊機制,共同構成多模態(tài)協(xié)同的安全模塊,動態(tài)引導模型在高風險場景中輸出安全響應。

        3. 兩階段訓練策略與動態(tài)安全控制

        PSA-VLM采用兩階段訓練策略:第一階段凍結大語言模型和視覺編碼器,僅訓練安全模塊,專注于概念層次的風險識別與特征對齊;第二階段解凍大語言模型,將安全模塊與語言模型深度集成,進一步提升跨模態(tài)輸入的安全性能。在推理階段,PSA-VLM利用安全頭的輸出動態(tài)干預視覺內(nèi)容,確保對高風險內(nèi)容的安全響應。

        4. 性能評估與結果

        研究團隊從安全性能和通用領域性能兩個方面評估了PSA-VLM。結果表明,PSA-VLM在多個安全基準上顯著優(yōu)于基線模型,尤其在有害、NSFW內(nèi)容和網(wǎng)絡欺凌檢測方面表現(xiàn)出色。同時,PSA-VLM在通用任務上的性能并未受到顯著影響,實現(xiàn)了安全性和通用能力的平衡。實驗結果也驗證了PSA-VLM在概念瓶頸層有效提取安全信息的能力。

        5. 結論

        PSA-VLM通過基于概念瓶頸模型的架構創(chuàng)新,有效提升了VLM的安全性,同時保持了模型的通用任務能力。其可解釋性和可控性使其成為高風險領域應用的理想選擇,為多模態(tài)模型的安全對齊樹立了新標桿。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品乱码久久久久久久久久久久 | 男女猛烈激情xx00免费视频| 国产亚洲精品第一综合| 狼色精品人妻在线视频免费| 中文字幕a∨在线乱码免费看| 久久青草91免费观看| 中国人xxxxx69免费视频| 无码人妻久久一区二区三区免费丨| 国产又大又长又粗又硬的免费视频 | 国产日产亚洲系列最新| 久久精品国产亚洲AV香蕉| 亚洲一级黄色大片| 粉色视频免费入口| 亚洲高清偷拍一区二区三区| 亚洲综合激情六月婷婷在线观看 | 77777_亚洲午夜久久多人| 狼人大香伊蕉国产WWW亚洲| 91精品国产免费久久国语蜜臀| 国产又粗又长又硬免费视频| 黄色毛片视频免费| 国产av无码专区亚洲av果冻传媒| 亚洲乱码一二三四区乱码| 久久WWW免费人成—看片| 成年性生交大片免费看| 久久精品国产亚洲av影院| 日本在线高清免费爱做网站| 久久影视综合亚洲| 嫩草成人永久免费观看| 老汉色老汉首页a亚洲| 免费a级毛片无码a∨蜜芽试看| 亚洲国产综合精品中文第一区 | 国产精品亚洲精品爽爽| 亚洲精品国产高清不卡在线| 亚洲人成人伊人成综合网无码| 午夜老司机永久免费看片| 久久亚洲国产成人精品无码区| 免费在线黄色电影| 亚洲精品国产精品乱码不卡√| 永久黄色免费网站| 亚洲爆乳AAA无码专区| 久久电影网午夜鲁丝片免费|