DPO與PPO:揭開大語言模型對齊的未來之謎
作者認為DPO不能干掉PPO,至少現(xiàn)在還不能。
原標題:DPO vs PPO:深度解讀誰是LLM Alignment的未來
文章來源:智猩猩GenAI
內(nèi)容字數(shù):4505字
從 PPO 到 DPO 的推導與比較
本文探討了 DPO(Direct Preference Optimization)與 PPO(Proximal Policy Optimization)在大語言模型(LLM)對齊中的應用與比較。DPO 因其簡化的流程與較低的計算成本而受到關注,但它是否能真正取代 PPO 是一個值得深入探討的問題。
1. PPO 的最優(yōu)策略形式
PPO 的最優(yōu)策略在 KL 正則化約束下可以被表示為一個特定形式,其中包含分區(qū)函數(shù)用于歸一化。通過重參數(shù)化,DPO 隱式建模了獎勵函數(shù),試圖簡化這一過程。
2. DPO 的潛在缺陷
盡管 DPO 在某些學術基準測試中表現(xiàn)出色,但它在實際應用中仍存在若干缺陷:
- Distribution Shift: DPO 假設參考分布能夠準確捕捉偏好數(shù)據(jù)分布,但實際上二者常常存在偏移,可能導致模型在分布外數(shù)據(jù)上的表現(xiàn)不佳。
- Reward Hacking Risk: DPO 的隱式建??赡芤l(fā)額外的 reward hacking 問題,尤其在偏好數(shù)據(jù)不足時,可能誤判分布外樣本。
- Lack of Partition Function: DPO 省略了分區(qū)函數(shù)的影響,這一假設在訓練分布稀疏或偏移時可能不成立,導致優(yōu)化目標偏差。
3. 具體實例分析
通過一個披薩店的實例,PPO 像一個嚴謹?shù)呐笥眩瑤椭脩糇龀鼋?jīng)過深思熟慮的選擇,而 DPO 則像一個隨意的朋友,可能會推薦一些不合理的選項,導致用戶后悔。PPO 的歸一化確保了概率分布的合理性,而 DPO 的簡化可能導致過高權(quán)重賦予稀有選項。
總結(jié)
綜上所述,盡管 DPO 具有一定的優(yōu)勢,但在當前的技術背景下,PPO 仍然在許多方面表現(xiàn)得更加穩(wěn)健。因此,DPO 不能完全取代 PPO,尤其是在處理復雜的分布和偏好數(shù)據(jù)時。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產(chǎn)品。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...