AIGC動態歡迎閱讀
原標題:大模型訓練遭投毒損失千萬美元?Anthropic驚人發現:LLM植入,代碼庫暗藏bug!
關鍵字:模型,攻擊者,沙袋,研究者,能力
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:Aeneas 好困
【新智元導讀】最近,大模型訓練遭惡意攻擊已經刷屏了。就在剛剛,Anthropic也發布了一篇論文,探討了前沿模型的巨大破壞力,他們發現:模型遇到危險任務時會隱藏真實能力,還會在代碼庫中巧妙地插入bug,躲過LLM和人類「檢查官」的追蹤!就在昨天,某大廠模型訓練遭入侵的,驚動了整個AI圈。
上圖已針對敏感信息進行編輯
據悉,疑似有人對某大廠的集群代碼持續發起惡意攻擊,包括但不限于:
根據爆料,這次投毒主要是利用了Huggingface的「load ckpt」函數漏洞。
通過修改或注入惡意代碼,模型加載時就會執行攻擊者指定的操作,比如篡改模型權重、修改訓練參數或截取模型數據,以及訪問和修改其他用戶的模型文件。
巧的是,就在今天,Anthropic也發表了一篇論文,研究前沿模型的破壞力評估。
如果AI模型試圖誤導人類,或者秘密破壞任務,它們能有多大的破壞力?
論文地址:https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier
原文鏈接:大模型訓練遭投毒損失千萬美元?Anthropic驚人發現:LLM植入,代碼庫暗藏bug!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...