AIGC動態歡迎閱讀
原標題:340條樣本就能讓GPT-4崩潰,輸出有害內容高達95%?OpenAI的安全防護措施再次失效
文章來源:夕小瑤科技說
內容字數:4809字
內容摘要:夕小瑤科技說 原創作者 | 謝年年、python僅需340個示例微調GPT-4,即可繞過安全限制,讓模型說出“改裝方法”、“生化武器制作過程”等有害內容?OpenAI的安全防護措施再次失效,攻擊的成功率高達95%!近日,美國頂尖大學UIUC與斯坦福聯合對GPT-4展開紅隊測試,制作了340個包含有害內容的示例通過API微調模型,消除了模型中的RLHF保護能力。整個過程成本不超過245美元,這意味著如果有人不懷好意。OpenAI:瑟瑟發抖.jpg論文標題:Removing RLHF Protections in GPT-4 via Fine-Tuning論文鏈接:https://arxiv.org/pdf/2311.05553.pdf前言大模型能力越強大,也越讓人擔心其安全性,時不時出現的“奶奶漏洞”、“偵探漏洞”、“冒險家漏洞”、“作家漏洞”暴露出大模型安全防御機制還有待完善。最常用的…
原文鏈接:點此閱讀原文:340條樣本就能讓GPT-4崩潰,輸出有害內容高達95%?OpenAI的安全防護措施再次失效
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...