国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別”,剪枝合并也無所遁形

AIGC動態11個月前發布 量子位
359 0 0

上海AI Lab邵婧課題組 投稿量子位 | 公眾號 QbitAI大模型“套殼”防不勝防,有沒有方法可以檢測套殼行為呢?來自上海AI實驗室、中科院、人大和上交大的學者們,提出了一種大模型的“指紋識別”方法——REEF(Representation Encoding Fingerprints)。在不改變模型性能的前提下,利用REEF就可以精準識別未經授權的后續開發行為。REEF依賴模型在微調后表征“不變性”的特點,基于表征編碼實現對大模型的“指紋鑒別”。并且即使經過剪枝、合并、參數排列和縮放變換等一系列操作,同樣能讓“套殼”行為無所遁形。可以說,這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。大模型表征具有“微調不變性”注:在下文中,“源模型”是指從頭訓練的LLM(即論文中victim model),如Llama、Qwen等;“被測模型”(即論文中的suspect model),分為兩類——基于源模型開發/訓練的“衍生模型”和其他“無關模型”。REEF的目標是,給定一個被測模型,檢測其是否是來自“源模型”的“衍生模型”,即所謂的“套殼”模型。鑒于訓練大語言模型的投入巨大,模型所有者和第三方迫切需要一種準確高效的方法,以判斷被測模型是否來自某一源模型(例如Code-llama從Llama-2訓練而來)。然而,現有的水印方法不僅增加了額外的訓練成本,還可能削弱模型的通用性能,且水印容易被刪除。更重要的是,這些方法無法應用于已公開發布的模型。此外,基于權重的指紋識別缺乏魯棒性,惡意開發者可以通過不同權重修改手段輕松繞過檢測。由于不同模型在訓練數據和模型架構上的差異,不同的LLM的特征表示有所不同。如下圖(a)所示,Llama的表征與Baichuan和Qwen明顯不同,但與其微調模型(如Llama-chat和Chinese-llama)更為接近。這一現象揭示了表征作為LLM“指紋”的潛力。基于以下兩點觀察,作者在源模型的表征上訓練了一個二元分類器,并將其應用于各種被測模型的表征,包括衍生模型和無關模型:微調后的衍生模型的表征與源模型的表征相似,而無關模型的表征顯示出不同的分布;一些高級語義概念在 LLM 的表征空間中“線性”編碼,從而可以輕松分類,如安全或不安全、誠實或不誠實等。具體而言,作者使用TruthfulQA數據集,分別選擇 Llama-2-7B和 Llama-2-13B作為源模型,并在其數據集表征上訓練了多種深度神經網絡DNN分類器,例如線性分類器、多層感知器MLP、卷積神經網絡CNN 和圖卷積網絡GCN。然后,作者將訓練好的DNN分類器應用于被測模型的表征。實驗結果表明:在源模型的表征上訓練的分類器能夠有效遷移到其衍生模型的表征上,但在無關模型的表征上失效。這意味著,表征可以作為指紋來保護源模型的知識產權。然而,使用DNN分類器識別源模型面臨以下挑戰:DNN具有固定的輸入維度,如果對源模型進行改變表征維度的剪枝操作,分類器不再適用;DNN對表征的排列缺乏魯棒性,惡意開發人員可能通過變換矩陣實現參數重排來規避檢測。REEF:一種魯棒的LLM指紋識別方法為了解決上述挑戰,作者提出一種新的基于表征的指紋識別方法——REEF,具備良好的魯棒性。REEF利用中心核對齊CKA相似性,重點關注LLM的內部特征表征。在評估被測模型是否來自源模型時,REEF計算兩個模型對相同樣本的表征之間的CKA相似性。該方法簡單高效,能夠確保捕獲到任何顯著的相似性,從而揭示模型之間的潛在衍生關系。CKA是基于希爾伯特-施密特性準則(HilbertSchmidt Independence Criterion,HSIC)的相似性指數,用于測量兩組隨機變量之間的性。X和Y之間的CKA相似度可以按如下方式計算:通過下面的定理1,論文在理論上證明了CKA相似度在任何列排列和縮放變換下具有不變性。同時,CKA能夠在不同維度的表征之間建立對應關系。因此,REEF 對源模型的各種后續開發(包括模型剪枝和表征排列)表現出強魯棒性,從而確保基于表征的指紋能夠準確識別源模型。無懼后續開發,穩穩識別“套殼”模型作者將REEF應用于通過微調、剪枝、合并、排列和縮放變換等方式從源模型衍生出的被測模型。這些方式可能顯著改變模型的結構或參數,使得現有方法難以有效識別源模型。然而,REEF在這些情況下依然能夠準確識別出源模型,進一步驗證了其魯棒性。具體來說,從上面的表中,可以得出以下結論:REEF對微調具有很強的魯棒性,即使在使用多達700B tokens的微況下(Llama-7B),REEF仍能達到0.9962的高相似度;REEF對各種剪枝策略都表現出魯棒性,無論結構化剪枝還是非結構化剪枝,REEF都能夠有效識別源模型,即使剪枝比率高達90%,REEF依然能夠成功識別;無論是基于權重或基于分布的模型合并方法,REEF均能在識別合并模型的來源方面始終保持高準確性;REEF 對任何列排列和縮放變換具有不變性,能夠抵御該類規避技術。魯棒且高效:跨數據集和樣本量作者進一步分析了REEF在不同數據集和不同樣本數量下的表現。一方面,除了前文提到的TruthfulQA數據集,作者還選擇了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等數據集進行實驗;另一方面,對于每個數據集,別在樣本數量從10到1000、每隔10的情況下進行采樣,以測試REEF的表現。結果,REEF在不同數據集上均表現出有效性,對數據集不具強依賴性(圖示在不同數據集上,源模型與衍生模型之間的相似性顯著高于其與無關模型之間的相似性,表明REEF能夠跨數據集穩定識別源模型);同時,REEF依賴少量樣本即可穩健識別模型指紋,具有高效性(圖示REEF在 200-300 個樣本后結果趨于穩定,表明其可以在較少的樣本數量下實現可靠的指紋識別)。REEF它不僅保障了模型性能,還平衡了開放性與知識產權之間的關系,能夠確保衍生模型的責任可追溯。作者相信,REEF將為AI模型保護和知識產權管理設立新的標準,促進更透明、協作的AI社區。作者簡介本文由上海AI Lab、中科院、人大和上交大聯合完成。主要作者包括中科院博士生張杰、上海AI Lab青年研究員劉東瑞(共同一作)等。通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。論文地址:https://arxiv.org/abs/2410.14273項目主頁:https://github.com/tmylla/REEF—完—投稿請發郵件到:ai@qbitai.com標題注明【投稿】,告訴我們:你是誰,從哪來,投稿內容?附上論文/項目主頁鏈接,以及聯系方式哦我們會(盡量)及時回復你點這里?關注我,記得標星哦~一鍵三連「分享」、「點贊」和「在看」科技前沿進展日日相見 ~

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        国产精品色在线| 欧美精品久久99久久在免费线| 91在线国内视频| 国产日韩欧美精品一区| 国产一区二区三区高清播放| 91精品国产综合久久久久久漫画| 欧美日韩国产色站一区二区三区| 91精品国产91久久久久久最新毛片| 欧美日韩亚洲综合一区二区三区| 日韩小视频在线观看专区| 免费观看一级欧美片| 精品成人佐山爱一区二区| 精品少妇一区二区三区在线播放| 欧美一级爆毛片| 美国毛片一区二区三区| 久久综合久久综合久久| 99久久久久久| 日韩电影免费一区| 国产日韩欧美电影| 欧美性xxxxx极品少妇| 麻豆精品蜜桃视频网站| 中文字幕一区三区| 欧美一区二区视频网站| 丁香婷婷综合激情五月色| 色哟哟国产精品免费观看| 亚洲v日本v欧美v久久精品| 精品久久久久久无| 亚洲欧洲国产日韩| 91精品在线免费观看| 成人一区二区三区在线观看| 色综合久久99| 精品国产自在久精品国产| 国产精品久久久久久户外露出| 亚洲午夜精品在线| 欧美激情在线免费观看| 在线综合亚洲欧美在线视频| www.欧美日韩| 国产一区二区三区最好精华液| 欧美少妇bbb| 成人丝袜视频网| 欧日韩精品视频| 国产suv精品一区二区883| 日韩精品欧美精品| 亚洲免费观看高清在线观看| 2021国产精品久久精品| 欧美精品乱码久久久久久按摩| 久久久91精品国产一区二区精品| 亚洲成a人v欧美综合天堂下载 | 91精品国产综合久久精品app | 欧美高清性hdvideosex| 成人h动漫精品| 韩国av一区二区三区在线观看| 7777女厕盗摄久久久| 91日韩一区二区三区| 国产suv一区二区三区88区| 国产午夜精品一区二区| 日韩视频免费观看高清完整版在线观看 | 国产精品1区二区.| 日本伊人色综合网| 日本vs亚洲vs韩国一区三区 | 丁香网亚洲国际| 国产精品99久久久久久似苏梦涵 | 一区二区三区四区在线播放 | 国产日韩欧美a| 日本二三区不卡| 色婷婷综合久久久| 一本一道久久a久久精品| 久久精品国产亚洲a| 美日韩一级片在线观看| 久久综合综合久久综合| 青青草视频一区| 日韩av网站在线观看| 亚洲免费观看视频| 亚洲精品在线电影| 色综合天天综合网天天看片| 日产国产高清一区二区三区| 欧美一激情一区二区三区| 国产电影一区在线| 亚洲精品成人悠悠色影视| 一本色道久久综合亚洲aⅴ蜜桃| 久久久久亚洲蜜桃| 久久精品国产亚洲5555| 日本一区二区高清| 日韩久久免费av| 色噜噜狠狠成人中文综合| 久久国产精品第一页| 亚洲国产精品自拍| 波多野结衣视频一区| 欧美三级欧美一级| 成人激情小说乱人伦| 久久国产精品露脸对白| 亚洲一二三四区不卡| 国产女人18毛片水真多成人如厕| 狠狠色丁香九九婷婷综合五月| 在线播放欧美女士性生活| 国产精品毛片无遮挡高清| 国精产品一区一区三区mba桃花| 亚洲成年人影院| 精品国产一区二区三区忘忧草| 爽好多水快深点欧美视频| 国产日韩欧美电影| 成人黄色免费短视频| 蜜臀av性久久久久蜜臀aⅴ流畅| 欧美在线视频日韩| 91色porny| 色综合久久久久久久久久久| 国产成人综合网| 成人av免费观看| 黑人精品欧美一区二区蜜桃| 久久亚洲二区三区| 久草在线在线精品观看| 亚洲综合丁香婷婷六月香| 中文乱码免费一区二区| 成人精品国产免费网站| 狠狠色丁香婷婷综合| 精品伊人久久久久7777人| 日韩国产精品久久久| 亚洲色图色小说| 91国内精品野花午夜精品 | 国产精品三级久久久久三级| 日韩欧美国产电影| 色综合久久久久综合| 中文av一区二区| 亚洲精品欧美激情| 欧美成人免费网站| 久久综合中文字幕| 欧美国产精品劲爆| 国产精品国产三级国产aⅴ中文| 亚洲在线视频一区| 欧美日韩一级片在线观看| 亚洲影视资源网| 五月婷婷综合激情| 极品少妇一区二区| 亚洲色图视频网站| 亚洲成人综合网站| 精品一区二区三区欧美| 成人一区二区三区| 亚洲伦在线观看| 麻豆一区二区在线| 国产麻豆午夜三级精品| 一本到一区二区三区| 欧美日韩精品二区第二页| 美女任你摸久久| 国产真实乱子伦精品视频| 国产成人久久精品77777最新版本| 一区二区三区精品| 日韩免费福利电影在线观看| 亚洲国产精品t66y| 亚洲精品日产精品乱码不卡| 日本欧美一区二区| 粉嫩av一区二区三区粉嫩| 亚洲高清三级视频| 亚洲美女精品一区| 91麻豆精品国产91久久久资源速度| 91免费在线视频观看| 精品乱人伦小说| 亚洲人xxxx| 国产精品自拍网站| 欧美日韩成人在线| 国产美女在线精品| 欧美久久久久免费| 亚洲欧美aⅴ...| 国产成人免费在线视频| 91麻豆精品国产自产在线观看一区 | 91理论电影在线观看| 免费看黄色91| 亚洲电影欧美电影有声小说| 久久精品国产99久久6| 亚洲私人影院在线观看| 国产乱理伦片在线观看夜一区| 亚洲电影一级片| 成人av电影在线| 日韩电影在线一区二区三区| av电影在线观看一区| 激情综合五月天| 欧美性受xxxx黑人xyx性爽| 国产精品一区一区三区| 日韩三级在线免费观看| 日韩影院精彩在线| 欧美日韩在线观看一区二区 | 精品少妇一区二区三区免费观看| 欧美这里有精品| 中文字幕亚洲欧美在线不卡| 国产一区二区中文字幕| 粉嫩一区二区三区在线看| 国产成人av资源| 国产精品一卡二卡在线观看| 日韩视频永久免费| 亚洲成a人在线观看| 欧美日韩国产精选| 亚洲综合一区二区三区| 亚洲高清免费一级二级三级| 色欧美日韩亚洲| 91免费看片在线观看| 亚洲午夜激情av| 亚洲与欧洲av电影| 91麻豆免费视频| 亚洲综合无码一区二区| 欧美aⅴ一区二区三区视频| 日韩欧美成人激情|