AIGC動態歡迎閱讀
原標題:用深度催眠誘導LLM「越獄」,香港浸會大學初探可信大語言模型
文章來源:機器之心
內容字數:9148字
內容摘要:機器之心專欄作者:Xuan Li、 Zhanke Zhou、Jianing Zhu機構:HKBU TMLR Group盡管大語言模型 LLM (Large Language Model) 在各種應用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導,從而越過模型內置的安全防護提供一些危險 / 違法內容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強相關研究,可反向促進人們對大模型安全性防護的重視,完善大模型的防御機制。不同于以往采用搜索優化或計算成本較高的推斷方法來生成可 Jailbreak 的 Prompt,本文受米爾格拉姆實驗(Milgram experiment)啟發,從心理學視角提出了一種輕量級 Jailbreak 方法:DeepInception,通過深度催眠 LLM 使其成為越獄者,并令其自行規避內置的安全防護。論文鏈接:https://arxi…
原文鏈接:點此閱讀原文:用深度催眠誘導LLM「越獄」,香港浸會大學初探可信大語言模型
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...