AIGC動態歡迎閱讀
原標題:GPT-4o更容易越獄?北航&南洋理工上萬次測試給出詳細分析
關鍵字:報告,文本,模型,作者,方法
文章來源:量子位
內容字數:0字
內容摘要:
北航&南洋理工聯合團隊投稿量子位 | 公眾號 QbitAIGPT-4o,比上一代更容易被越獄攻擊了?
來自北航和南洋理工的研究人員,通過上萬次的API查詢,對GPT-4o各種模態的安全性進行了詳細測試。
結果發現,GPT-4o新引入的語音模態帶來了新的攻擊面,而且多模態整體安全性不敵GPT-4V。
具體來說,研究人員針對4個常用的基準測試,對GPT-4o支持的三種模態(文本、圖像、音頻)進行了測試。
測試一共涉及到4000+初始文本查詢的優化,8000+響應判斷,16000+次OpenAI的API查詢。
基于此,研究人員撰寫了詳細的報告,給出了關于GPT-4o的安全性的三點見解:
GPT-4o對文本越獄攻擊的安全性比之前有所提升,但文本模態越獄攻擊可遷移性強,可通過多模態形式攻擊;
新引入的音頻模態為GPT-4o的越獄攻擊暴露了新的攻擊面;
當前的黑盒多模態越獄攻擊方法幾乎無效,但實驗表明GPT-4o多模態層面的安全性弱于GPT-4V。
下面就來看一下這份報告的詳細內容~
評價規則首先,讓我們了解一下作者使用的測評方式和實驗設定。
為了評估GPT-4o的安全風險以及其相較于上一代模型的
原文鏈接:GPT-4o更容易越獄?北航&南洋理工上萬次測試給出詳細分析
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...