根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示，讓惡意攻擊無(wú)處可藏

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布大數(shù)據(jù)文摘

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示，讓惡意攻擊無(wú)處可藏
關(guān)鍵字：模型,提示,本文,概率,作者
文章來源：大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù)：6870字

內(nèi)容摘要：

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投
作者：seven_
近一段時(shí)間以來，工業(yè)界和學(xué)術(shù)界都對(duì)大型語(yǔ)言模型（LLM）的內(nèi)部運(yùn)行機(jī)理進(jìn)行了深入的研究和探索。這種基礎(chǔ)理論研究對(duì)于大模型更安全更廣泛的應(yīng)用落地具有重要意義。目前較為流行的LLM架構(gòu)仍然基于自回歸式的Transformer架構(gòu)，即模型根據(jù)上一步輸出的token來預(yù)測(cè)下一個(gè)token的概率分布。那我們能否根據(jù)LLM的輸出反推出用戶輸入給模型的提示（prompt）呢，這種情景在輿情監(jiān)控等安全領(lǐng)域會(huì)經(jīng)常出現(xiàn)。用惡意用戶通過偽裝手段對(duì)LLM發(fā)出攻擊時(shí)，如果能夠?qū)敵鲞M(jìn)行反推分析得到攻擊者的偽裝手段，就可以更具針對(duì)性的進(jìn)行攔截。
本文介紹一篇來自康奈爾大學(xué)計(jì)算機(jī)系的研究論文，本文的研究團(tuán)隊(duì)首次提出了反轉(zhuǎn)語(yǔ)言模型（Language Model Inversion）的概念，并通過實(shí)驗(yàn)表明，LLM中的下一個(gè)預(yù)測(cè)token包含了先前文本token的大量先驗(yàn)。同時(shí)也提出了一種僅在模型當(dāng)前分布來恢復(fù)用戶未知提示的方法，該方法在Llama-27b模型上實(shí)現(xiàn)了78%的F1恢復(fù)精度。論文題目：
Language Model Inversion論文鏈接：
https:

原文鏈接：根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示，讓惡意攻擊無(wú)處可藏