AIGC動態歡迎閱讀
原標題:什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系
關鍵字:模型,攻擊者,成功率,提示,團隊
文章來源:量子位
內容字數:0字
內容摘要:
USAIL團隊 投稿量子位 | 公眾號 QbitAI全新大語言模型越獄攻擊基準與評估體系來了。
來自香港科技大學(Guangzhou)USAIL研究團隊,從攻擊者和防御者的角度探討了什么因素會影響大模型的安全。
提出攻擊分析系統性框架JailTrackBench。
JailTrackBench研究重點分析了不同攻擊配置對LLMs性能的影響,包括攻擊者的能力、預算、對抗性后綴長度,以及模型的大小、安全對齊情況、系統提示和模板類型。
其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》現已被NeurIPS D&B 2024接收。
此外,為了全面解決大語言模型的越獄問題,USAIL團隊不僅專注于攻擊,還深入探討了越獄評估這一核心問題。
越獄分析JailTrackBench近年來,隨著人工智能的迅速發展,尤其是大語言模型(LLMs)的廣泛應用,保障模型的安全性并防止其被惡意利用,已成為一個重要的議題。越獄攻擊通過惡意指令誘導模型生成有害或不道德的內容,對模型的安全性和可靠性構成了嚴峻挑戰。
這種攻擊與防御的博弈,極大地推
原文鏈接:什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...