根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無(wú)處可藏
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無(wú)處可藏
關(guān)鍵字:模型,提示,本文,概率,作者
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):6870字
內(nèi)容摘要:
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投
作者:seven_
近一段時(shí)間以來,工業(yè)界和學(xué)術(shù)界都對(duì)大型語(yǔ)言模型(LLM)的內(nèi)部運(yùn)行機(jī)理進(jìn)行了深入的研究和探索。這種基礎(chǔ)理論研究對(duì)于大模型更安全更廣泛的應(yīng)用落地具有重要意義。目前較為流行的LLM架構(gòu)仍然基于自回歸式的Transformer架構(gòu),即模型根據(jù)上一步輸出的token來預(yù)測(cè)下一個(gè)token的概率分布。那我們能否根據(jù)LLM的輸出反推出用戶輸入給模型的提示(prompt)呢,這種情景在輿情監(jiān)控等安全領(lǐng)域會(huì)經(jīng)常出現(xiàn)。用惡意用戶通過偽裝手段對(duì)LLM發(fā)出攻擊時(shí),如果能夠?qū)敵鲞M(jìn)行反推分析得到攻擊者的偽裝手段,就可以更具針對(duì)性的進(jìn)行攔截。
本文介紹一篇來自康奈爾大學(xué)計(jì)算機(jī)系的研究論文,本文的研究團(tuán)隊(duì)首次提出了反轉(zhuǎn)語(yǔ)言模型(Language Model Inversion)的概念,并通過實(shí)驗(yàn)表明,LLM中的下一個(gè)預(yù)測(cè)token包含了先前文本token的大量先驗(yàn)。同時(shí)也提出了一種僅在模型當(dāng)前分布來恢復(fù)用戶未知提示的方法,該方法在Llama-27b模型上實(shí)現(xiàn)了78%的F1恢復(fù)精度。論文題目:
Language Model Inversion論文鏈接:
https:
原文鏈接:根據(jù)模型輸出反轉(zhuǎn)LLM輸入提示,讓惡意攻擊無(wú)處可藏
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡(jiǎn)介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化