無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用

AIGC動態(tài)歡迎閱讀
原標題:無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用
關鍵字:準則,模型,道德,基準,研究者
文章來源:機器之心
內容字數(shù):7880字
內容摘要:
機器之心專欄
機器之心編輯部隨著人工智能技術的發(fā)展,以 GPT-4 為代表的大語言模型依靠其強大的能力正在對社會產生深遠的影響。與此同時,大模型本身的安全性問題也變得尤為重要。如何確保大語言模型可以和人類的價值、真實的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問題。之前的大多數(shù)對齊方法需要收集新數(shù)據(jù)重新訓練模型,然而對訓練數(shù)據(jù)質量要求高以及優(yōu)化模型參數(shù)耗時耗力是對齊中的痛點。除此之外,待對齊的價值觀可能是動態(tài)變化的,這進一步給大模型價值觀對齊帶來了挑戰(zhàn)。
有鑒于此,上海交通大學生成式人工智能實驗室 GAIR 迅速采取行動,推出了一種全新的價值對齊方法:OPO (On-the-fly Preference Optimization,實時偏好優(yōu)化)。OPO 無需訓練即可實現(xiàn)實時動態(tài)對齊,而且因其即插即用的特性,適用于所有的開源與閉源大模型。研究者透過 OPO 實現(xiàn)了大模型對于法律與道德標準的對齊,展示了 OPO 的動態(tài)性以及優(yōu)越性。
相比于之前工作中的對齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢:
無需訓練即可實現(xiàn)價值觀對齊;
舍棄獎
原文鏈接:無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號