用慢思考提升模型安全性，北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對(duì)齊

團(tuán)隊(duì)通過(guò)提示工程、監(jiān)督微調(diào)、DPO、RL等方法對(duì)系統(tǒng)2對(duì)齊方法進(jìn)行探索。

原標(biāo)題：用慢思考提升模型安全性，北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對(duì)齊
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：8317字

北京交通大學(xué)ADaM團(tuán)隊(duì)：探索系統(tǒng)2對(duì)齊，提升大型語(yǔ)言模型安全性

本文總結(jié)了北京交通大學(xué)ADaM團(tuán)隊(duì)的研究成果，該團(tuán)隊(duì)探索了“系統(tǒng)2對(duì)齊”方法，以提升大型語(yǔ)言模型（LLM）的安全性，并對(duì)OpenAI的o1模型進(jìn)行了安全性分析。

1. o1模型安全性分析

ADaM團(tuán)隊(duì)首先分析了OpenAI的o1模型在應(yīng)對(duì)復(fù)雜越獄攻擊（WildJailbreak和MathPrompt）的能力。研究發(fā)現(xiàn)，雖然o1模型的安全指南有助于提升安全性，但在推理過(guò)程中，模型偶爾會(huì)邏輯混亂，安全機(jī)制可能被繞過(guò)。此外，o1模型并非總是啟動(dòng)安全推理模式，有時(shí)會(huì)錯(cuò)誤拒絕良性請(qǐng)求。

2. 系統(tǒng)2對(duì)齊方法探索

ADaM團(tuán)隊(duì)提出了“系統(tǒng)2對(duì)齊”的概念，這與OpenAI近期發(fā)布的“Deliberative Alignment”方法類似，旨在通過(guò)引導(dǎo)模型進(jìn)行有意的、分析性的推理，以提升安全性。團(tuán)隊(duì)嘗試了多種方法來(lái)實(shí)現(xiàn)系統(tǒng)2對(duì)齊，包括：

提示工程：通過(guò)在推理過(guò)程中加入提示，引導(dǎo)模型進(jìn)行更深入的思考。實(shí)驗(yàn)表明，不同的模型可能需要不同的提示工程方法，這增加了部署難度。
監(jiān)督微調(diào)(SFT)：利用GPT-4o蒸餾出帶有思考過(guò)程的訓(xùn)練數(shù)據(jù)，對(duì)模型進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果顯示，該方法可以有效提升模型安全性，尤其是在Llama3-8B模型上表現(xiàn)出色。
直接偏好優(yōu)化(DPO)：直接利用偏好數(shù)據(jù)訓(xùn)練模型，無(wú)需獎(jiǎng)勵(lì)模型。實(shí)驗(yàn)結(jié)果顯示DPO在安全性指標(biāo)上有所提升，但同時(shí)也導(dǎo)致了過(guò)度拒絕良性請(qǐng)求的問(wèn)題。
基于結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí)：訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)評(píng)估模型的最終答案，并用強(qiáng)化學(xué)習(xí)方法優(yōu)化模型策略。該方法在平衡安全性與實(shí)用性方面表現(xiàn)最佳。
基于過(guò)程監(jiān)督的強(qiáng)化學(xué)習(xí)：在推理的每一步都提供反饋，引導(dǎo)模型進(jìn)行更安全、更準(zhǔn)確的推理。該方法結(jié)合自對(duì)弈機(jī)制，進(jìn)一步提升了模型的安全對(duì)齊能力。

3. 結(jié)論與展望

ADaM團(tuán)隊(duì)的研究表明，系統(tǒng)2對(duì)齊可以有效提升傳統(tǒng)系統(tǒng)1模型的安全性。通過(guò)多種方法的結(jié)合，可以培養(yǎng)模型的批判性評(píng)估能力，從而增強(qiáng)模型的安全性。未來(lái)，研究將繼續(xù)探索更先進(jìn)的系統(tǒng)2對(duì)齊方法，以應(yīng)對(duì)日益復(fù)雜的模型安全挑戰(zhàn)，并促進(jìn)模型從被動(dòng)防護(hù)向主動(dòng)推理的轉(zhuǎn)變。