DPO-Shift：一個參數(shù)可控改變DPO分布，緩解似然偏移

原標題：DPO-Shift：一個參數(shù)可控改變DPO分布，緩解似然偏移
文章來源：機器之心
內(nèi)容字數(shù)：2426字

DPO-Shift：緩解大語言模型訓練中的似然位移問題

本文介紹了華南理工大學研究生楊晞亮的研究成果——DPO-Shift方法，該方法旨在解決直接偏好優(yōu)化(DPO)訓練大語言模型時出現(xiàn)的似然位移問題。DPO作為一種高效的離線算法，在訓練過程中，選定響應和拒絕響應的概率往往同步下降，導致模型對那些既未被明確偏好也未被堅決拒絕的響應賦予意外升高的概率，這就是似然位移。

似然位移問題及成因分析
研究發(fā)現(xiàn)，似然位移的出現(xiàn)可能與訓練數(shù)據(jù)集中的選定響應和拒絕響應在內(nèi)容層面存在較高相似度有關(guān)。這種相似性使得模型難以區(qū)分兩者，從而導致概率分布的異常變化。
DPO-Shift方法
為了解決這個問題，DPO-Shift方法提出了一種創(chuàng)新策略：在Bradley-Terry模型中，對拒絕響應的獎勵添加一個參數(shù)函數(shù)。該函數(shù)的作用是削弱語義相似響應間的對抗性，從而緩解似然位移問題。通過調(diào)整參數(shù)函數(shù)，可以控制模型在提升選定響應概率和維持獎勵差距之間的權(quán)衡。
理論分析與實驗結(jié)果
文章對選定響應的對數(shù)似然和獎勵差距這兩個關(guān)鍵指標函數(shù)進行了理論分析，結(jié)果表明DPO-Shift方法確實存在這種權(quán)衡關(guān)系，并且該權(quán)衡由引入的參數(shù)函數(shù)控制，同時還依賴于初始模型性能和數(shù)據(jù)質(zhì)量。一系列實驗結(jié)果驗證了DPO-Shift方法的有效性，它能夠顯著緩解似然位移問題，并實現(xiàn)響應概率和獎勵準確性之間的靈活、可控的權(quán)衡。
下游任務性能提升
在MT-Bench和勝率實驗等下游任務測試中，DPO-Shift方法展現(xiàn)出優(yōu)于DPO方法的性能，同時生成的文本內(nèi)容也更簡潔、更高質(zhì)量。
總結(jié)
DPO-Shift方法通過在Bradley-Terry模型中引入?yún)?shù)函數(shù)，有效地緩解了DPO訓練中的似然位移問題，并在下游任務中取得了顯著的性能提升。這項研究為改進大語言模型的訓練方法提供了新的思路，也為未來研究提供了重要的參考價值。

總而言之，DPO-Shift方法為解決大語言模型訓練中的似然位移問題提供了一種有效且可控的解決方案，其理論分析和實驗結(jié)果都充分證明了其優(yōu)越性。該方法的提出，對于提升大語言模型的性能和生成內(nèi)容的質(zhì)量具有重要的意義。