AIGC動態歡迎閱讀
原標題:當心!不要教大模型騙人,研究表明AI變壞后,很難被糾正
關鍵字:,模型,政策,行為,觸發器
文章來源:夕小瑤科技說
內容字數:12116字
內容摘要:
夕小瑤科技說 原創作者 | 智商掉了一地、王二狗隨著機器學習應用的廣泛部署,對模型的安全性要求日益增加。人們在處理行為時,通常會表現出協作行為,然而,在某些特定的機會或情況下,人們可能會選擇采取完全不同的策略,以達到不同的目標。
這引發了一個深刻而有趣的問題:如果AI 學會了這種性策略,我們能否利用當前最先進的安全訓練技術來檢測并消除這種行為?
Anthropic 近期提出新研究,涉及到對 AI 模型的安全性和可塑性的深入思考,主要集中在對機器學習模型的安全性和可解釋性的探討上,通過故意在模型中加入來訓練性 LLM,然后評估安全訓練是否能消除這些行為。研究機制不僅有助于增強機器學習模型的安全性,還對推動該領域的倫理、透明度和創新具有重要意義。
論文題目: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
論文鏈接: https://arxiv.org/abs/2401.05566
機制(Backdoor Mechanism)指的是在機器學習模型中故意植入的
原文鏈接:當心!不要教大模型騙人,研究表明AI變壞后,很難被糾正
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...