OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1
關(guān)鍵字:政策,研究人員,節(jié)點(diǎn),模型,線索
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來(lái)自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學(xué)家邵婧等。
最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。
然而,推理能力的提升真的能解決安全問(wèn)題嗎?推理能力越強(qiáng),模型的安全性會(huì)越好嗎?近日,上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。
這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discov
原文鏈接:OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: