340條樣本就能讓GPT-4崩潰,輸出有害內(nèi)容高達(dá)95%?OpenAI的安全防護(hù)措施再次失效
AIGC動態(tài)歡迎閱讀
原標(biāo)題:340條樣本就能讓GPT-4崩潰,輸出有害內(nèi)容高達(dá)95%?OpenAI的安全防護(hù)措施再次失效
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):4809字
內(nèi)容摘要:夕小瑤科技說 原創(chuàng)作者 | 謝年年、python僅需340個示例微調(diào)GPT-4,即可繞過安全限制,讓模型說出“改裝方法”、“生化武器制作過程”等有害內(nèi)容?OpenAI的安全防護(hù)措施再次失效,攻擊的成功率高達(dá)95%!近日,美國頂尖大學(xué)UIUC與斯坦福聯(lián)合對GPT-4展開紅隊測試,制作了340個包含有害內(nèi)容的示例通過API微調(diào)模型,消除了模型中的RLHF保護(hù)能力。整個過程成本不超過245美元,這意味著如果有人不懷好意。OpenAI:瑟瑟發(fā)抖.jpg論文標(biāo)題:Removing RLHF Protections in GPT-4 via Fine-Tuning論文鏈接:https://arxiv.org/pdf/2311.05553.pdf前言大模型能力越強(qiáng)大,也越讓人擔(dān)心其安全性,時不時出現(xiàn)的“奶奶漏洞”、“偵探漏洞”、“冒險家漏洞”、“作家漏洞”暴露出大模型安全防御機(jī)制還有待完善。最常用的…
原文鏈接:點此閱讀原文:340條樣本就能讓GPT-4崩潰,輸出有害內(nèi)容高達(dá)95%?OpenAI的安全防護(hù)措施再次失效
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。
相關(guān)文章
