大模型隱私防線,華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別 | NeurIPS24
僅需1000次查詢
原標題:大模型隱私防線,華科清華聯(lián)手實現(xiàn)微調(diào)數(shù)據(jù)90%精準識別 | NeurIPS24
文章來源:量子位
內(nèi)容字數(shù):7618字
微調(diào)大模型的數(shù)據(jù)隱私泄露風(fēng)險:SPV-MIA攻擊方法詳解
近年來,大型語言模型(LLM)的廣泛應(yīng)用引發(fā)了對其數(shù)據(jù)隱私的擔(dān)憂。華中科技大學(xué)和清華大學(xué)的研究團隊聯(lián)合提出了一種新型成員推理攻擊方法——SPV-MIA,該方法能夠有效地檢測給定文本是否屬于大模型的微調(diào)數(shù)據(jù)集,其攻擊準確率超過90%。
1. 成員推理攻擊與現(xiàn)有方法的局限性
成員推理攻擊(MIA)旨在判斷特定數(shù)據(jù)是否用于模型訓(xùn)練。雖然在傳統(tǒng)機器學(xué)習(xí)領(lǐng)域取得了進展,但針對LLM的MIA方法卻面臨挑戰(zhàn)。現(xiàn)有方法主要分為基于校正和無校正兩種,都依賴于現(xiàn)實場景中難以滿足的假設(shè):1. 可獲得與訓(xùn)練集同分布的校正數(shù)據(jù)集;2. 目標模型存在過擬合現(xiàn)象。現(xiàn)有方法在實際應(yīng)用中效果接近隨機猜測。
2. SPV-MIA攻擊方法的創(chuàng)新之處
SPV-MIA克服了現(xiàn)有方法的局限性,主要通過以下兩個創(chuàng)新模塊實現(xiàn):
- 大模型自校正機制:利用LLM自身的強大擬合和泛化能力,通過自提示(Self-Prompt)方法生成近似訓(xùn)練集分布的校正數(shù)據(jù)集。該方法無需外部校正數(shù)據(jù)集,解決了數(shù)據(jù)獲取的難題。
- 概率波動估計方法:基于LLM的記憶性現(xiàn)象,提出概率波動指標來刻畫模型的記憶特征,避免了對模型過擬合的依賴。該方法更貼合實際場景中的微調(diào)模型。
SPV-MIA巧妙地結(jié)合了自校正機制和概率波動估計方法,實現(xiàn)了在微調(diào)大模型場景下高精度的成員推理攻擊。
3. 實驗結(jié)果與分析
研究團隊在多個開源大模型(GPT-2,GPT-J,Falcon-7B,LLaMA-7B)和微調(diào)數(shù)據(jù)集(Wikitext-103,AG News,XSum)上進行了實驗。結(jié)果顯示,SPV-MIA的AUC分數(shù)提升達30%,TPR@1% FPR提升高達260%,顯著優(yōu)于現(xiàn)有方法。即使在極端條件下(例如,使用不相關(guān)的自提示文本),SPV-MIA仍然表現(xiàn)出良好的魯棒性,僅需1000次查詢即可達到接近0.9的AUC分數(shù)。
4. 結(jié)論
SPV-MIA 攻克了現(xiàn)有成員推理攻擊方法在實際應(yīng)用中的瓶頸,首次實現(xiàn)了在微調(diào)大模型場景下高精度的成員推理攻擊。該研究不僅揭示了微調(diào)大模型的數(shù)據(jù)隱私風(fēng)險,也為未來針對大模型數(shù)據(jù)隱私和版權(quán)鑒別的研究提供了新的思路和方法。其高效性和魯棒性為保護LLM訓(xùn)練數(shù)據(jù)的隱私安全敲響了警鐘。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破