「越獄」頻發，如何教會大模型「迷途知返」而不是「將錯就錯」？

「越獄」事件頻發，如何教會大模型「迷途知返」而不是「將錯就錯」？

AIGC動態歡迎閱讀

原標題：「越獄」頻發，如何教會大模型「迷途知返」而不是「將錯就錯」？
關鍵字：騰訊,模型,位置,研究者,前綴
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com論文的第一作者是香港中文大學（深圳）數據科學學院二年級博士生袁尤良，指導老師為香港中文大學（深圳）數據科學學院的賀品嘉教授和騰訊 AI Lab 的涂兆鵬博士。該工作是袁尤良在騰訊AI Lab實習時完成。賀品嘉團隊的研究重點是軟件工程、大模型、AI for SE、可信人工智能。大型語言模型（LLM）展現出了令人印象深刻的智能水平。因此，確保其安全性顯得至關重要。已有研究提出了各種策略，以使 LLM 與人類倫理道德對齊。然而，當前的先進模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越獄攻擊，并被用于惡意用途。
為什么哪怕經過了大量的安全對齊，這些模型依然容易被越獄？應該如何進一步把安全對齊做深（deep）？
圍繞這兩個問題，香港中文

原文鏈接：「越獄」頻發，如何教會大模型「迷途知返」而不是「將錯就錯」？