根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無處可藏
AIGC動態(tài)歡迎閱讀
原標題:根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無處可藏
關(guān)鍵字:模型,提示,本文,概率,作者
文章來源:大數(shù)據(jù)文摘
內(nèi)容字數(shù):6870字
內(nèi)容摘要:
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投
作者:seven_
近一段時間以來,工業(yè)界和學術(shù)界都對大型語言模型(LLM)的內(nèi)部運行機理進行了深入的研究和探索。這種基礎(chǔ)理論研究對于大模型更安全更廣泛的應用落地具有重要意義。目前較為流行的LLM架構(gòu)仍然基于自回歸式的Transformer架構(gòu),即模型根據(jù)上一步輸出的token來預測下一個token的概率分布。那我們能否根據(jù)LLM的輸出反推出用戶輸入給模型的提示(prompt)呢,這種情景在輿情監(jiān)控等安全領(lǐng)域會經(jīng)常出現(xiàn)。用惡意用戶通過偽裝手段對LLM發(fā)出攻擊時,如果能夠?qū)敵鲞M行反推分析得到攻擊者的偽裝手段,就可以更具針對性的進行攔截。
本文介紹一篇來自康奈爾大學計算機系的研究論文,本文的研究團隊首次提出了反轉(zhuǎn)語言模型(Language Model Inversion)的概念,并通過實驗表明,LLM中的下一個預測token包含了先前文本token的大量先驗。同時也提出了一種僅在模型當前分布來恢復用戶未知提示的方法,該方法在Llama-27b模型上實現(xiàn)了78%的F1恢復精度。論文題目:
Language Model Inversion論文鏈接:
https:
原文鏈接:根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無處可藏
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化