大模型隱私防線，華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別 | NeurIPS24

僅需1000次查詢

破解大模型隱私防線，華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別 | NeurIPS24

原標題：大模型隱私防線，華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別 | NeurIPS24
文章來源：量子位
內(nèi)容字數(shù)：7618字

微調(diào)大模型的數(shù)據(jù)隱私泄露風(fēng)險：SPV-MIA攻擊方法詳解

近年來，大型語言模型(LLM)的廣泛應(yīng)用引發(fā)了對其數(shù)據(jù)隱私的擔(dān)憂。華中科技大學(xué)和清華大學(xué)的研究團隊聯(lián)合提出了一種新型成員推理攻擊方法——SPV-MIA，該方法能夠有效地檢測給定文本是否屬于大模型的微調(diào)數(shù)據(jù)集，其攻擊準確率超過90%。

1. 成員推理攻擊與現(xiàn)有方法的局限性

成員推理攻擊(MIA)旨在判斷特定數(shù)據(jù)是否用于模型訓(xùn)練。雖然在傳統(tǒng)機器學(xué)習(xí)領(lǐng)域取得了進展，但針對LLM的MIA方法卻面臨挑戰(zhàn)。現(xiàn)有方法主要分為基于校正和無校正兩種，都依賴于現(xiàn)實場景中難以滿足的假設(shè)：1. 可獲得與訓(xùn)練集同分布的校正數(shù)據(jù)集；2. 目標模型存在過擬合現(xiàn)象。現(xiàn)有方法在實際應(yīng)用中效果接近隨機猜測。

2. SPV-MIA攻擊方法的創(chuàng)新之處

SPV-MIA克服了現(xiàn)有方法的局限性，主要通過以下兩個創(chuàng)新模塊實現(xiàn)：

大模型自校正機制：利用LLM自身的強大擬合和泛化能力，通過自提示(Self-Prompt)方法生成近似訓(xùn)練集分布的校正數(shù)據(jù)集。該方法無需外部校正數(shù)據(jù)集，解決了數(shù)據(jù)獲取的難題。
概率波動估計方法：基于LLM的記憶性現(xiàn)象，提出概率波動指標來刻畫模型的記憶特征，避免了對模型過擬合的依賴。該方法更貼合實際場景中的微調(diào)模型。

SPV-MIA巧妙地結(jié)合了自校正機制和概率波動估計方法，實現(xiàn)了在微調(diào)大模型場景下高精度的成員推理攻擊。

3. 實驗結(jié)果與分析

研究團隊在多個開源大模型(GPT-2,GPT-J,Falcon-7B,LLaMA-7B)和微調(diào)數(shù)據(jù)集(Wikitext-103,AG News,XSum)上進行了實驗。結(jié)果顯示，SPV-MIA的AUC分數(shù)提升達30%，TPR@1% FPR提升高達260%，顯著優(yōu)于現(xiàn)有方法。即使在極端條件下(例如，使用不相關(guān)的自提示文本)，SPV-MIA仍然表現(xiàn)出良好的魯棒性，僅需1000次查詢即可達到接近0.9的AUC分數(shù)。

4. 結(jié)論

SPV-MIA 攻克了現(xiàn)有成員推理攻擊方法在實際應(yīng)用中的瓶頸，首次實現(xiàn)了在微調(diào)大模型場景下高精度的成員推理攻擊。該研究不僅揭示了微調(diào)大模型的數(shù)據(jù)隱私風(fēng)險，也為未來針對大模型數(shù)據(jù)隱私和版權(quán)鑒別的研究提供了新的思路和方法。其高效性和魯棒性為保護LLM訓(xùn)練數(shù)據(jù)的隱私安全敲響了警鐘。