用慢思考提升模型安全性,北交大、鵬城實驗室提出系統(tǒng)2對齊
團(tuán)隊通過提示工程、監(jiān)督微調(diào)、DPO、RL等方法對系統(tǒng)2對齊方法進(jìn)行探索。
原標(biāo)題:用慢思考提升模型安全性,北交大、鵬城實驗室提出系統(tǒng)2對齊
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8317字
北京交通大學(xué)ADaM團(tuán)隊:探索系統(tǒng)2對齊,提升大型語言模型安全性
本文總結(jié)了北京交通大學(xué)ADaM團(tuán)隊的研究成果,該團(tuán)隊探索了“系統(tǒng)2對齊”方法,以提升大型語言模型(LLM)的安全性,并對OpenAI的o1模型進(jìn)行了安全性分析。
1. o1模型安全性分析
ADaM團(tuán)隊首先分析了OpenAI的o1模型在應(yīng)對復(fù)雜越獄攻擊(WildJailbreak和MathPrompt)的能力。研究發(fā)現(xiàn),雖然o1模型的安全指南有助于提升安全性,但在推理過程中,模型偶爾會邏輯混亂,安全機(jī)制可能被繞過。此外,o1模型并非總是啟動安全推理模式,有時會錯誤拒絕良性請求。
2. 系統(tǒng)2對齊方法探索
ADaM團(tuán)隊提出了“系統(tǒng)2對齊”的概念,這與OpenAI近期發(fā)布的“Deliberative Alignment”方法類似,旨在通過引導(dǎo)模型進(jìn)行有意的、分析性的推理,以提升安全性。團(tuán)隊嘗試了多種方法來實現(xiàn)系統(tǒng)2對齊,包括:
- 提示工程:通過在推理過程中加入提示,引導(dǎo)模型進(jìn)行更深入的思考。實驗表明,不同的模型可能需要不同的提示工程方法,這增加了部署難度。
- 監(jiān)督微調(diào)(SFT):利用GPT-4o蒸餾出帶有思考過程的訓(xùn)練數(shù)據(jù),對模型進(jìn)行微調(diào)。實驗結(jié)果顯示,該方法可以有效提升模型安全性,尤其是在Llama3-8B模型上表現(xiàn)出色。
- 直接偏好優(yōu)化(DPO):直接利用偏好數(shù)據(jù)訓(xùn)練模型,無需獎勵模型。實驗結(jié)果顯示DPO在安全性指標(biāo)上有所提升,但同時也導(dǎo)致了過度拒絕良性請求的問題。
- 基于結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí):訓(xùn)練一個獎勵模型來評估模型的最終答案,并用強(qiáng)化學(xué)習(xí)方法優(yōu)化模型策略。該方法在平衡安全性與實用性方面表現(xiàn)最佳。
- 基于過程監(jiān)督的強(qiáng)化學(xué)習(xí):在推理的每一步都提供反饋,引導(dǎo)模型進(jìn)行更安全、更準(zhǔn)確的推理。該方法結(jié)合自對弈機(jī)制,進(jìn)一步提升了模型的安全對齊能力。
3. 結(jié)論與展望
ADaM團(tuán)隊的研究表明,系統(tǒng)2對齊可以有效提升傳統(tǒng)系統(tǒng)1模型的安全性。通過多種方法的結(jié)合,可以培養(yǎng)模型的批判性評估能力,從而增強(qiáng)模型的安全性。未來,研究將繼續(xù)探索更先進(jìn)的系統(tǒng)2對齊方法,以應(yīng)對日益復(fù)雜的模型安全挑戰(zhàn),并促進(jìn)模型從被動防護(hù)向主動推理的轉(zhuǎn)變。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺