專治大模型“套殼”！上海AI實驗室等給LLM做“指紋識別”，剪枝合并也無所遁形

上海AI Lab邵婧課題組投稿量子位 | 公眾號 QbitAI大模型“套殼”防不勝防，有沒有方法可以檢測套殼行為呢？來自上海AI實驗室、中科院、人大和上交大的學者們，提出了一種大模型的“指紋識別”方法——REEF（Representation Encoding Fingerprints）。在不改變模型性能的前提下，利用REEF就可以精準識別未經授權的后續開發行為。REEF依賴模型在微調后表征“不變性”的特點，基于表征編碼實現對大模型的“指紋鑒別”。并且即使經過剪枝、合并、參數排列和縮放變換等一系列操作，同樣能讓“套殼”行為無所遁形。可以說，這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。大模型表征具有“微調不變性”注：在下文中，“源模型”是指從頭訓練的LLM（即論文中victim model），如Llama、Qwen等；“被測模型”（即論文中的suspect model），分為兩類——基于源模型開發/訓練的“衍生模型”和其他“無關模型”。REEF的目標是，給定一個被測模型，檢測其是否是來自“源模型”的“衍生模型”，即所謂的“套殼”模型。鑒于訓練大語言模型的投入巨大，模型所有者和第三方迫切需要一種準確高效的方法，以判斷被測模型是否來自某一源模型（例如Code-llama從Llama-2訓練而來）。然而，現有的水印方法不僅增加了額外的訓練成本，還可能削弱模型的通用性能，且水印容易被刪除。更重要的是，這些方法無法應用于已公開發布的模型。此外，基于權重的指紋識別缺乏魯棒性，惡意開發者可以通過不同權重修改手段輕松繞過檢測。由于不同模型在訓練數據和模型架構上的差異，不同的LLM的特征表示有所不同。如下圖(a)所示，Llama的表征與Baichuan和Qwen明顯不同，但與其微調模型（如Llama-chat和Chinese-llama）更為接近。這一現象揭示了表征作為LLM“指紋”的潛力。基于以下兩點觀察，作者在源模型的表征上訓練了一個二元分類器，并將其應用于各種被測模型的表征，包括衍生模型和無關模型：微調后的衍生模型的表征與源模型的表征相似，而無關模型的表征顯示出不同的分布；一些高級語義概念在 LLM 的表征空間中“線性”編碼，從而可以輕松分類，如安全或不安全、誠實或不誠實等。具體而言，作者使用TruthfulQA數據集，分別選擇 Llama-2-7B和 Llama-2-13B作為源模型，并在其數據集表征上訓練了多種深度神經網絡DNN分類器，例如線性分類器、多層感知器MLP、卷積神經網絡CNN 和圖卷積網絡GCN。然后，作者將訓練好的DNN分類器應用于被測模型的表征。實驗結果表明：在源模型的表征上訓練的分類器能夠有效遷移到其衍生模型的表征上，但在無關模型的表征上失效。這意味著，表征可以作為指紋來保護源模型的知識產權。然而，使用DNN分類器識別源模型面臨以下挑戰：DNN具有固定的輸入維度，如果對源模型進行改變表征維度的剪枝操作，分類器不再適用；DNN對表征的排列缺乏魯棒性，惡意開發人員可能通過變換矩陣實現參數重排來規避檢測。REEF：一種魯棒的LLM指紋識別方法為了解決上述挑戰，作者提出一種新的基于表征的指紋識別方法——REEF，具備良好的魯棒性。REEF利用中心核對齊CKA相似性，重點關注LLM的內部特征表征。在評估被測模型是否來自源模型時，REEF計算兩個模型對相同樣本的表征之間的CKA相似性。該方法簡單高效，能夠確保捕獲到任何顯著的相似性，從而揭示模型之間的潛在衍生關系。CKA是基于希爾伯特-施密特性準則（HilbertSchmidt Independence Criterion，HSIC）的相似性指數，用于測量兩組隨機變量之間的性。X和Y之間的CKA相似度可以按如下方式計算：通過下面的定理1，論文在理論上證明了CKA相似度在任何列排列和縮放變換下具有不變性。同時，CKA能夠在不同維度的表征之間建立對應關系。因此，REEF 對源模型的各種后續開發（包括模型剪枝和表征排列）表現出強魯棒性，從而確保基于表征的指紋能夠準確識別源模型。無懼后續開發，穩穩識別“套殼”模型作者將REEF應用于通過微調、剪枝、合并、排列和縮放變換等方式從源模型衍生出的被測模型。這些方式可能顯著改變模型的結構或參數，使得現有方法難以有效識別源模型。然而，REEF在這些情況下依然能夠準確識別出源模型，進一步驗證了其魯棒性。具體來說，從上面的表中，可以得出以下結論：REEF對微調具有很強的魯棒性，即使在使用多達700B tokens的微況下（Llama-7B），REEF仍能達到0.9962的高相似度；REEF對各種剪枝策略都表現出魯棒性，無論結構化剪枝還是非結構化剪枝，REEF都能夠有效識別源模型，即使剪枝比率高達90%，REEF依然能夠成功識別；無論是基于權重或基于分布的模型合并方法，REEF均能在識別合并模型的來源方面始終保持高準確性；REEF 對任何列排列和縮放變換具有不變性，能夠抵御該類規避技術。魯棒且高效：跨數據集和樣本量作者進一步分析了REEF在不同數據集和不同樣本數量下的表現。一方面，除了前文提到的TruthfulQA數據集，作者還選擇了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等數據集進行實驗；另一方面，對于每個數據集，別在樣本數量從10到1000、每隔10的情況下進行采樣，以測試REEF的表現。結果，REEF在不同數據集上均表現出有效性，對數據集不具強依賴性（圖示在不同數據集上，源模型與衍生模型之間的相似性顯著高于其與無關模型之間的相似性，表明REEF能夠跨數據集穩定識別源模型）；同時，REEF依賴少量樣本即可穩健識別模型指紋，具有高效性（圖示REEF在 200-300 個樣本后結果趨于穩定，表明其可以在較少的樣本數量下實現可靠的指紋識別）。REEF它不僅保障了模型性能，還平衡了開放性與知識產權之間的關系，能夠確保衍生模型的責任可追溯。作者相信，REEF將為AI模型保護和知識產權管理設立新的標準，促進更透明、協作的AI社區。作者簡介本文由上海AI Lab、中科院、人大和上交大聯合完成。主要作者包括中科院博士生張杰、上海AI Lab青年研究員劉東瑞（共同一作）等。通訊作者邵婧為上海AI Lab青年科學家，研究方向為AI安全可信。論文地址：https://arxiv.org/abs/2410.14273項目主頁：https://github.com/tmylla/REEF—完—投稿請發郵件到：ai@qbitai.com標題注明【投稿】，告訴我們：你是誰，從哪來，投稿內容?附上論文/項目主頁鏈接，以及聯系方式哦我們會（盡量）及時回復你點這里?關注我，記得標星哦～一鍵三連「分享」、「點贊」和「在看」科技前沿進展日日相見 ~

閱讀原文