僅需1000次查詢
原標題:大模型隱私防線,華科清華聯手實現微調數據90%精準識別 | NeurIPS24
文章來源:量子位
內容字數:7618字
微調大模型的數據隱私泄露風險:SPV-MIA攻擊方法詳解
近年來,大型語言模型(LLM)的廣泛應用引發了對其數據隱私的擔憂。華中科技大學和清華大學的研究團隊聯合提出了一種新型成員推理攻擊方法——SPV-MIA,該方法能夠有效地檢測給定文本是否屬于大模型的微調數據集,其攻擊準確率超過90%。
1. 成員推理攻擊與現有方法的局限性
成員推理攻擊(MIA)旨在判斷特定數據是否用于模型訓練。雖然在傳統機器學習領域取得了進展,但針對LLM的MIA方法卻面臨挑戰。現有方法主要分為基于校正和無校正兩種,都依賴于現實場景中難以滿足的假設:1. 可獲得與訓練集同分布的校正數據集;2. 目標模型存在過擬合現象。現有方法在實際應用中效果接近隨機猜測。
2. SPV-MIA攻擊方法的創新之處
SPV-MIA克服了現有方法的局限性,主要通過以下兩個創新模塊實現:
- 大模型自校正機制:利用LLM自身的強大擬合和泛化能力,通過自提示(Self-Prompt)方法生成近似訓練集分布的校正數據集。該方法無需外部校正數據集,解決了數據獲取的難題。
- 概率波動估計方法:基于LLM的記憶性現象,提出概率波動指標來刻畫模型的記憶特征,避免了對模型過擬合的依賴。該方法更貼合實際場景中的微調模型。
SPV-MIA巧妙地結合了自校正機制和概率波動估計方法,實現了在微調大模型場景下高精度的成員推理攻擊。
3. 實驗結果與分析
研究團隊在多個開源大模型(GPT-2,GPT-J,Falcon-7B,LLaMA-7B)和微調數據集(Wikitext-103,AG News,XSum)上進行了實驗。結果顯示,SPV-MIA的AUC分數提升達30%,TPR@1% FPR提升高達260%,顯著優于現有方法。即使在極端條件下(例如,使用不相關的自提示文本),SPV-MIA仍然表現出良好的魯棒性,僅需1000次查詢即可達到接近0.9的AUC分數。
4. 結論
SPV-MIA 攻克了現有成員推理攻擊方法在實際應用中的瓶頸,首次實現了在微調大模型場景下高精度的成員推理攻擊。該研究不僅揭示了微調大模型的數據隱私風險,也為未來針對大模型數據隱私和版權鑒別的研究提供了新的思路和方法。其高效性和魯棒性為保護LLM訓練數據的隱私安全敲響了警鐘。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破