OpenAI o1強(qiáng)推理能提升安全性？長(zhǎng)對(duì)話誘導(dǎo)干翻o1

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OpenAI o1強(qiáng)推理能提升安全性？長(zhǎng)對(duì)話誘導(dǎo)干翻o1
關(guān)鍵字：政策,研究人員,節(jié)點(diǎn),模型,線索
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文作者來(lái)自于上海交大，上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰，導(dǎo)師為馬利莊教授，其他作者包括北航研究生李昊，上海 AI Lab 研究員劉東瑞，上海 AI Lab 青年科學(xué)家邵婧等。
最近，以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升，在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱，推理可以讓模型更好的遵守安全政策，是提升模型安全的新路徑。
然而，推理能力的提升真的能解決安全問(wèn)題嗎？推理能力越強(qiáng)，模型的安全性會(huì)越好嗎？近日，上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。
這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discov

原文鏈接：OpenAI o1強(qiáng)推理能提升安全性？長(zhǎng)對(duì)話誘導(dǎo)干翻o1