原標題:攻破AI最強守衛,賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為
文章來源:新智元
內容字數:8888字
Anthropic發布新型AI模型防護方法,抵御越獄攻擊
文章報道了Anthropic公司發布的一種新型AI模型防護方法,該方法在48小時內成功抵御了大部分越獄嘗試,并提高了賞金以鼓勵更多安全研究人員參與測試。
什么是模型越獄?
大語言模型(LLM)容易受到“越獄”攻擊,即通過精心設計的提示繞過模型的安全防護措施,誘導模型執行有害行為,例如生成非法物質的制作方法。為了應對這一挑戰,Anthropic研發了新的防護系統。
Anthropic的新型防護方法:憲法分類器
Anthropic的新方法的核心是“憲法分類器”。該系統利用自然語言規則(“憲法”)來定義允許和禁止的內容,并以此訓練一個分類器來識別和阻止有害輸出。該分類器能夠實時監控模型的輸出,并在檢測到有害內容時立即停止生成。這種方法的優勢在于能夠快速適應新的威脅模型,并通過數據增強和無害數據池來提升性能。
測試結果與效率
Anthropic進行了廣泛的測試,包括人類紅隊測試和自動化紅隊測試。結果顯示,該方法能夠阻止95%以上的越獄嘗試,而對模型性能的影響有限:生產環境中Claude.ai流量拒絕率僅增加了0.38%,推理開銷增加了23.7%。盡管如此,仍有少量越獄嘗試成功,這體現了持續改進安全防護的必要性。
為什么要研究模型越獄?
Anthropic強調研究模型越獄的必要性,因為日益強大的LLM可能被惡意利用,帶來巨大的風險。提前研發和部署有效的安全防護措施,能夠在未來避免潛在的災難性后果。
技術細節:憲法分類器的工作原理
憲法分類器由輸入分類器和輸出分類器組成。輸入分類器對輸入提示進行評估,而輸出分類器則實時監控輸出,以確保安全。訓練數據通過規則合成、數據增強和自動化紅隊測試生成。輸出分類器支持流式預測,能夠在檢測到有害內容時立即停止生成,兼顧安全性和用戶體驗。
紅隊測試結果
在HackerOne平臺上進行的紅隊測試中,盡管參與者嘗試了多種攻擊策略,但沒有一個能夠完全攻破系統。最成功的參與者也只取得了有限的成果,這表明憲法分類器在抵御通用越獄攻擊方面具有一定的有效性。
未來展望
盡管Anthropic的新方法取得了顯著成果,但文章也指出,沒有完美的防護系統,安全與功能之間的矛盾將持續存在。未來仍需持續改進和完善AI模型的安全防護措施,以應對不斷演變的威脅。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
相關文章
