AIGC動態歡迎閱讀
原標題:為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務信息,模型學會「自毀」了
文章來源:量子位
內容字數:4904字
內容摘要:西風 發自 凹非寺量子位 | 公眾號 QbitAI防止大模型作惡的新法子來了!這下即使模型開源了,想惡意使用模型的人也很難讓大模型“作惡”。不信就來看這項研究。斯坦福研究人員最近提出了一種新方法對大模型使用附加機制進行訓練后,可以阻止它對有害任務的適應。他們把通過此方法訓練出的模型稱為“自毀模型”。自毀模型仍然能夠高性能地處理有益任務,但在面對有害任務的時候會神奇地“變差”。目前該論文已被AAAI…
原文鏈接:點此閱讀原文:為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務信息,模型學會「自毀」了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...