原標題:DPO-Shift:一個參數可控改變DPO分布,緩解似然偏移
文章來源:機器之心
內容字數:2426字
DPO-Shift:緩解大語言模型訓練中的似然位移問題
本文介紹了華南理工大學研究生楊晞亮的研究成果——DPO-Shift方法,該方法旨在解決直接偏好優化(DPO)訓練大語言模型時出現的似然位移問題。DPO作為一種高效的離線算法,在訓練過程中,選定響應和拒絕響應的概率往往同步下降,導致模型對那些既未被明確偏好也未被堅決拒絕的響應賦予意外升高的概率,這就是似然位移。
似然位移問題及成因分析
研究發現,似然位移的出現可能與訓練數據集中的選定響應和拒絕響應在內容層面存在較高相似度有關。這種相似性使得模型難以區分兩者,從而導致概率分布的異常變化。
DPO-Shift方法
為了解決這個問題,DPO-Shift方法提出了一種創新策略:在Bradley-Terry模型中,對拒絕響應的獎勵添加一個參數函數。該函數的作用是削弱語義相似響應間的對抗性,從而緩解似然位移問題。 通過調整參數函數,可以控制模型在提升選定響應概率和維持獎勵差距之間的權衡。
理論分析與實驗結果
文章對選定響應的對數似然和獎勵差距這兩個關鍵指標函數進行了理論分析,結果表明DPO-Shift方法確實存在這種權衡關系,并且該權衡由引入的參數函數控制,同時還依賴于初始模型性能和數據質量。一系列實驗結果驗證了DPO-Shift方法的有效性,它能夠顯著緩解似然位移問題,并實現響應概率和獎勵準確性之間的靈活、可控的權衡。
下游任務性能提升
在MT-Bench和勝率實驗等下游任務測試中,DPO-Shift方法展現出優于DPO方法的性能,同時生成的文本內容也更簡潔、更高質量。
總結
DPO-Shift方法通過在Bradley-Terry模型中引入參數函數,有效地緩解了DPO訓練中的似然位移問題,并在下游任務中取得了顯著的性能提升。這項研究為改進大語言模型的訓練方法提供了新的思路,也為未來研究提供了重要的參考價值。
總而言之,DPO-Shift方法為解決大語言模型訓練中的似然位移問題提供了一種有效且可控的解決方案,其理論分析和實驗結果都充分證明了其優越性。該方法的提出,對于提升大語言模型的性能和生成內容的質量具有重要的意義。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺