大模型訓練遭投毒損失千萬美元？Anthropic驚人發現：LLM植入，代碼庫暗藏bug！

AIGC動態1年前 (2024)發布新智元

大模型訓練遭投毒損失千萬美元？Anthropic驚人發現：LLM植入炸彈，代碼庫暗藏bug！

AIGC動態歡迎閱讀

原標題：大模型訓練遭投毒損失千萬美元？Anthropic驚人發現：LLM植入，代碼庫暗藏bug！
關鍵字：模型,攻擊者,沙袋,研究者,能力
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：Aeneas 好困
【新智元導讀】最近，大模型訓練遭惡意攻擊已經刷屏了。就在剛剛，Anthropic也發布了一篇論文，探討了前沿模型的巨大破壞力，他們發現：模型遇到危險任務時會隱藏真實能力，還會在代碼庫中巧妙地插入bug，躲過LLM和人類「檢查官」的追蹤！就在昨天，某大廠模型訓練遭入侵的，驚動了整個AI圈。
上圖已針對敏感信息進行編輯
據悉，疑似有人對某大廠的集群代碼持續發起惡意攻擊，包括但不限于：
根據爆料，這次投毒主要是利用了Huggingface的「load ckpt」函數漏洞。
通過修改或注入惡意代碼，模型加載時就會執行攻擊者指定的操作，比如篡改模型權重、修改訓練參數或截取模型數據，以及訪問和修改其他用戶的模型文件。
巧的是，就在今天，Anthropic也發表了一篇論文，研究前沿模型的破壞力評估。
如果AI模型試圖誤導人類，或者秘密破壞任務，它們能有多大的破壞力？
論文地址：https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier

原文鏈接：大模型訓練遭投毒損失千萬美元？Anthropic驚人發現：LLM植入，代碼庫暗藏bug！