用深度催眠誘導(dǎo)LLM「越獄」,香港浸會(huì)大學(xué)初探可信大語(yǔ)言模型

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:用深度催眠誘導(dǎo)LLM「越獄」,香港浸會(huì)大學(xué)初探可信大語(yǔ)言模型
關(guān)鍵字:指令,模型,嵌套,誘導(dǎo),場(chǎng)景
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9148字
內(nèi)容摘要:機(jī)器之心專欄作者:Xuan Li、 Zhanke Zhou、Jianing Zhu機(jī)構(gòu):HKBU TMLR Group盡管大語(yǔ)言模型 LLM (Large Language Model) 在各種應(yīng)用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導(dǎo),從而越過(guò)模型內(nèi)置的安全防護(hù)提供一些危險(xiǎn) / 違法內(nèi)容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強(qiáng)相關(guān)研究,可反向促進(jìn)人們對(duì)大模型安全性防護(hù)的重視,完善大模型的防御機(jī)制。不同于以往采用搜索優(yōu)化或計(jì)算成本較高的推斷方法來(lái)生成可 Jailbreak 的 Prompt,本文受米爾格拉姆實(shí)驗(yàn)(Milgram experiment)啟發(fā),從心理學(xué)視角提出了一種輕量級(jí) Jailbreak 方法:DeepInception,通過(guò)深度催眠 LLM 使其成為越獄者,并令其自行規(guī)避內(nèi)置的安全防護(hù)。論文鏈接:https://arxi…
原文鏈接:點(diǎn)此閱讀原文:用深度催眠誘導(dǎo)LLM「越獄」,香港浸會(huì)大學(xué)初探可信大語(yǔ)言模型
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)