AIGC動態歡迎閱讀
原標題:OpenAI o1強推理能提升安全性?長對話誘導干翻o1
關鍵字:政策,研究人員,節點,模型,線索
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學家邵婧等。
最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數學的評估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。
然而,推理能力的提升真的能解決安全問題嗎?推理能力越強,模型的安全性會越好嗎?近日,上海交大和上海人工智能實驗室的一篇論文提出了質疑。
這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discov
原文鏈接:OpenAI o1強推理能提升安全性?長對話誘導干翻o1
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...