DPO與PPO：揭開大語言模型對齊的未來之謎

作者認為DPO不能干掉PPO，至少現在還不能。

原標題：DPO vs PPO：深度解讀誰是LLM Alignment的未來
文章來源：智猩猩GenAI
內容字數：4505字

本文探討了 DPO（Direct Preference Optimization）與 PPO（Proximal Policy Optimization）在大語言模型（LLM）對齊中的應用與比較。DPO 因其簡化的流程與較低的計算成本而受到關注，但它是否能真正取代 PPO 是一個值得深入探討的問題。

PPO 的最優策略在 KL 正則化約束下可以被表示為一個特定形式，其中包含分區函數用于歸一化。通過重參數化，DPO 隱式建模了獎勵函數，試圖簡化這一過程。

盡管 DPO 在某些學術基準測試中表現出色，但它在實際應用中仍存在若干缺陷：

Distribution Shift: DPO 假設參考分布能夠準確捕捉偏好數據分布，但實際上二者常常存在偏移，可能導致模型在分布外數據上的表現不佳。
Reward Hacking Risk: DPO 的隱式建模可能引發額外的 reward hacking 問題，尤其在偏好數據不足時，可能誤判分布外樣本。
Lack of Partition Function: DPO 省略了分區函數的影響，這一假設在訓練分布稀疏或偏移時可能不成立，導致優化目標偏差。

通過一個披薩店的實例，PPO 像一個嚴謹的朋友，幫助用戶做出經過深思熟慮的選擇，而 DPO 則像一個隨意的朋友，可能會推薦一些不合理的選項，導致用戶后悔。PPO 的歸一化確保了概率分布的合理性，而 DPO 的簡化可能導致過高權重賦予稀有選項。

綜上所述，盡管 DPO 具有一定的優勢，但在當前的技術背景下，PPO 仍然在許多方面表現得更加穩健。因此，DPO 不能完全取代 PPO，尤其是在處理復雜的分布和偏好數據時。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...