AIGC動態歡迎閱讀
原標題:根據模型輸出反轉LLM輸入提示,讓惡意攻擊無處可藏
關鍵字:模型,提示,本文,概率,作者
文章來源:大數據文摘
內容字數:6870字
內容摘要:
大數據文摘授權轉載自將門創投
作者:seven_
近一段時間以來,工業界和學術界都對大型語言模型(LLM)的內部運行機理進行了深入的研究和探索。這種基礎理論研究對于大模型更安全更廣泛的應用落地具有重要意義。目前較為流行的LLM架構仍然基于自回歸式的Transformer架構,即模型根據上一步輸出的token來預測下一個token的概率分布。那我們能否根據LLM的輸出反推出用戶輸入給模型的提示(prompt)呢,這種情景在輿情監控等安全領域會經常出現。用惡意用戶通過偽裝手段對LLM發出攻擊時,如果能夠對輸出進行反推分析得到攻擊者的偽裝手段,就可以更具針對性的進行攔截。
本文介紹一篇來自康奈爾大學計算機系的研究論文,本文的研究團隊首次提出了反轉語言模型(Language Model Inversion)的概念,并通過實驗表明,LLM中的下一個預測token包含了先前文本token的大量先驗。同時也提出了一種僅在模型當前分布來恢復用戶未知提示的方法,該方法在Llama-27b模型上實現了78%的F1恢復精度。論文題目:
Language Model Inversion論文鏈接:
https:
原文鏈接:根據模型輸出反轉LLM輸入提示,讓惡意攻擊無處可藏
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...