<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        用慢思考提升模型安全性,北交大、鵬城實驗室提出系統2對齊

        AIGC動態8個月前發布 機器之心
        322 0 0

        團隊通過提示工程、監督微調、DPO、RL等方法對系統2對齊方法進行探索。

        用慢思考提升模型安全性,北交大、鵬城實驗室提出系統2對齊

        原標題:用慢思考提升模型安全性,北交大、鵬城實驗室提出系統2對齊
        文章來源:機器之心
        內容字數:8317字

        北京交通大學ADaM團隊:探索系統2對齊,提升大型語言模型安全性

        本文總結了北京交通大學ADaM團隊的研究成果,該團隊探索了“系統2對齊”方法,以提升大型語言模型(LLM)的安全性,并對OpenAI的o1模型進行了安全性分析。

        1. o1模型安全性分析

        ADaM團隊首先分析了OpenAI的o1模型在應對復雜越獄攻擊(WildJailbreak和MathPrompt)的能力。研究發現,雖然o1模型的安全指南有助于提升安全性,但在推理過程中,模型偶爾會邏輯混亂,安全機制可能被繞過。此外,o1模型并非總是啟動安全推理模式,有時會錯誤拒絕良性請求。

        2. 系統2對齊方法探索

        ADaM團隊提出了“系統2對齊”的概念,這與OpenAI近期發布的“Deliberative Alignment”方法類似,旨在通過引導模型進行有意的、分析性的推理,以提升安全性。團隊嘗試了多種方法來實現系統2對齊,包括:

        1. 提示工程:通過在推理過程中加入提示,引導模型進行更深入的思考。實驗表明,不同的模型可能需要不同的提示工程方法,這增加了部署難度。
        2. 監督微調(SFT):利用GPT-4o蒸餾出帶有思考過程的訓練數據,對模型進行微調。實驗結果顯示,該方法可以有效提升模型安全性,尤其是在Llama3-8B模型上表現出色。
        3. 直接偏好優化(DPO):直接利用偏好數據訓練模型,無需獎勵模型。實驗結果顯示DPO在安全性指標上有所提升,但同時也導致了過度拒絕良性請求的問題。
        4. 基于結果監督的強化學習:訓練一個獎勵模型來評估模型的最終答案,并用強化學習方法優化模型策略。該方法在平衡安全性與實用性方面表現最佳。
        5. 基于過程監督的強化學習:在推理的每一步都提供反饋,引導模型進行更安全、更準確的推理。該方法結合自對弈機制,進一步提升了模型的安全對齊能力。

        3. 結論與展望

        ADaM團隊的研究表明,系統2對齊可以有效提升傳統系統1模型的安全性。通過多種方法的結合,可以培養模型的批判性評估能力,從而增強模型的安全性。未來,研究將繼續探索更先進的系統2對齊方法,以應對日益復雜的模型安全挑戰,并促進模型從被動防護向主動推理的轉變。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产男女爽爽爽爽爽免费视频| 国产成人精品亚洲一区| 免费无码一区二区三区蜜桃| 免费成人黄色大片| 风间由美在线亚洲一区| 日韩视频在线免费| 亚洲高清一区二区三区电影 | 久久精品免费网站网| 一本久到久久亚洲综合| 美女扒开屁股让男人桶爽免费| 亚洲精品国产精品乱码不卡| 国产精品亚洲一区二区在线观看| 日韩免费观看视频| 黄网站色视频免费看无下截| 国产av无码专区亚洲国产精品| aa级女人大片喷水视频免费| 亚洲av午夜福利精品一区人妖| 日韩免费在线观看视频| 亚洲精品免费在线| 成年大片免费视频| 免费无遮挡无码视频在线观看| 99re这里有免费视频精品| 337p欧洲亚洲大胆艺术| 97人伦色伦成人免费视频| 蜜芽亚洲av无码一区二区三区| 免费观看激色视频网站bd| 久久亚洲国产最新网站| 免费看国产曰批40分钟| 国产精品亚洲综合五月天| 白白国产永久免费视频| 高清永久免费观看| 亚洲剧场午夜在线观看| 免费一级毛片一级毛片aa| 免费污视频在线观看| 亚洲已满18点击进入在线观看| 亚洲成a人片在线播放| 全部免费毛片在线播放| 亚洲欧美在线x视频| 911精品国产亚洲日本美国韩国| 日韩免费视频网站| 国内少妇偷人精品视频免费|