<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        用慢思考提升模型安全性,北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對(duì)齊

        團(tuán)隊(duì)通過(guò)提示工程、監(jiān)督微調(diào)、DPO、RL等方法對(duì)系統(tǒng)2對(duì)齊方法進(jìn)行探索。

        用慢思考提升模型安全性,北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對(duì)齊

        原標(biāo)題:用慢思考提升模型安全性,北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對(duì)齊
        文章來(lái)源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):8317字

        北京交通大學(xué)ADaM團(tuán)隊(duì):探索系統(tǒng)2對(duì)齊,提升大型語(yǔ)言模型安全性

        本文總結(jié)了北京交通大學(xué)ADaM團(tuán)隊(duì)的研究成果,該團(tuán)隊(duì)探索了“系統(tǒng)2對(duì)齊”方法,以提升大型語(yǔ)言模型(LLM)的安全性,并對(duì)OpenAI的o1模型進(jìn)行了安全性分析。

        1. o1模型安全性分析

        ADaM團(tuán)隊(duì)首先分析了OpenAI的o1模型在應(yīng)對(duì)復(fù)雜越獄攻擊(WildJailbreak和MathPrompt)的能力。研究發(fā)現(xiàn),雖然o1模型的安全指南有助于提升安全性,但在推理過(guò)程中,模型偶爾會(huì)邏輯混亂,安全機(jī)制可能被繞過(guò)。此外,o1模型并非總是啟動(dòng)安全推理模式,有時(shí)會(huì)錯(cuò)誤拒絕良性請(qǐng)求。

        2. 系統(tǒng)2對(duì)齊方法探索

        ADaM團(tuán)隊(duì)提出了“系統(tǒng)2對(duì)齊”的概念,這與OpenAI近期發(fā)布的“Deliberative Alignment”方法類似,旨在通過(guò)引導(dǎo)模型進(jìn)行有意的、分析性的推理,以提升安全性。團(tuán)隊(duì)嘗試了多種方法來(lái)實(shí)現(xiàn)系統(tǒng)2對(duì)齊,包括:

        1. 提示工程:通過(guò)在推理過(guò)程中加入提示,引導(dǎo)模型進(jìn)行更深入的思考。實(shí)驗(yàn)表明,不同的模型可能需要不同的提示工程方法,這增加了部署難度。
        2. 監(jiān)督微調(diào)(SFT):利用GPT-4o蒸餾出帶有思考過(guò)程的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果顯示,該方法可以有效提升模型安全性,尤其是在Llama3-8B模型上表現(xiàn)出色。
        3. 直接偏好優(yōu)化(DPO):直接利用偏好數(shù)據(jù)訓(xùn)練模型,無(wú)需獎(jiǎng)勵(lì)模型。實(shí)驗(yàn)結(jié)果顯示DPO在安全性指標(biāo)上有所提升,但同時(shí)也導(dǎo)致了過(guò)度拒絕良性請(qǐng)求的問(wèn)題。
        4. 基于結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí):訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)評(píng)估模型的最終答案,并用強(qiáng)化學(xué)習(xí)方法優(yōu)化模型策略。該方法在平衡安全性與實(shí)用性方面表現(xiàn)最佳。
        5. 基于過(guò)程監(jiān)督的強(qiáng)化學(xué)習(xí):在推理的每一步都提供反饋,引導(dǎo)模型進(jìn)行更安全、更準(zhǔn)確的推理。該方法結(jié)合自對(duì)弈機(jī)制,進(jìn)一步提升了模型的安全對(duì)齊能力。

        3. 結(jié)論與展望

        ADaM團(tuán)隊(duì)的研究表明,系統(tǒng)2對(duì)齊可以有效提升傳統(tǒng)系統(tǒng)1模型的安全性。通過(guò)多種方法的結(jié)合,可以培養(yǎng)模型的批判性評(píng)估能力,從而增強(qiáng)模型的安全性。未來(lái),研究將繼續(xù)探索更先進(jìn)的系統(tǒng)2對(duì)齊方法,以應(yīng)對(duì)日益復(fù)雜的模型安全挑戰(zhàn),并促進(jìn)模型從被動(dòng)防護(hù)向主動(dòng)推理的轉(zhuǎn)變。


        聯(lián)系作者

        文章來(lái)源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 国产婷婷成人久久Av免费高清 | 国产一精品一AV一免费孕妇| 亚洲狠狠婷婷综合久久久久| 黄色片网站在线免费观看| 影音先锋在线免费观看| 33333在线亚洲| 成年性午夜免费视频网站不卡| 亚洲成人网在线观看| 波多野结衣中文字幕免费视频| 亚洲欧洲国产视频| 999久久久免费精品国产| 亚洲国产电影在线观看| 日韩吃奶摸下AA片免费观看 | 色噜噜综合亚洲av中文无码| 成全视频免费观看在线看| 日本亚洲欧洲免费天堂午夜看片女人员| 丝瓜app免费下载网址进入ios| 久久亚洲国产精品一区二区| 桃子视频在线观看高清免费视频| 亚洲精品在线免费观看视频| 成年女人毛片免费视频| 黄页网站在线视频免费| 国产亚洲人成无码网在线观看| 日韩精品无码专区免费播放| 亚洲午夜在线一区| 国产成人免费手机在线观看视频 | 久久午夜夜伦鲁鲁片无码免费| 亚洲日本中文字幕区| www.999精品视频观看免费| 中文无码亚洲精品字幕| 亚洲Av无码国产情品久久 | 又硬又粗又长又爽免费看 | 一本久久免费视频| 久久亚洲精品成人| 中文字幕无码视频手机免费看| 美女被免费网站视频在线| 亚洲av永久无码精品表情包| 天天操夜夜操免费视频| 和老外3p爽粗大免费视频| 亚洲欧洲自拍拍偷午夜色| 免费少妇a级毛片人成网|