<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DPO與PPO:揭開大語言模型對齊的未來之謎

        AIGC動態8個月前發布 智猩猩GenAI
        459 0 0

        作者認為DPO不能干掉PPO,至少現在還不能。

        DPO與PPO:揭開大語言模型對齊的未來之謎

        原標題:DPO vs PPO:深度解讀誰是LLM Alignment的未來
        文章來源:智猩猩GenAI
        內容字數:4505字

        從 PPO 到 DPO 的推導與比較

        本文探討了 DPO(Direct Preference Optimization)與 PPO(Proximal Policy Optimization)在大語言模型(LLM)對齊中的應用與比較。DPO 因其簡化的流程與較低的計算成本而受到關注,但它是否能真正取代 PPO 是一個值得深入探討的問題。

        1. PPO 的最優策略形式

        PPO 的最優策略在 KL 正則化約束下可以被表示為一個特定形式,其中包含分區函數用于歸一化。通過重參數化,DPO 隱式建模了獎勵函數,試圖簡化這一過程。

        2. DPO 的潛在缺陷

        盡管 DPO 在某些學術基準測試中表現出色,但它在實際應用中仍存在若干缺陷:

        • Distribution Shift: DPO 假設參考分布能夠準確捕捉偏好數據分布,但實際上二者常常存在偏移,可能導致模型在分布外數據上的表現不佳。
        • Reward Hacking Risk: DPO 的隱式建模可能引發額外的 reward hacking 問題,尤其在偏好數據不足時,可能誤判分布外樣本。
        • Lack of Partition Function: DPO 省略了分區函數的影響,這一假設在訓練分布稀疏或偏移時可能不成立,導致優化目標偏差。

        3. 具體實例分析

        通過一個披薩店的實例,PPO 像一個嚴謹的朋友,幫助用戶做出經過深思熟慮的選擇,而 DPO 則像一個隨意的朋友,可能會推薦一些不合理的選項,導致用戶后悔。PPO 的歸一化確保了概率分布的合理性,而 DPO 的簡化可能導致過高權重賦予稀有選項。

        總結

        綜上所述,盡管 DPO 具有一定的優勢,但在當前的技術背景下,PPO 仍然在許多方面表現得更加穩健。因此,DPO 不能完全取代 PPO,尤其是在處理復雜的分布和偏好數據時。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av日韩av高潮潮喷无码| 日韩免费a级毛片无码a∨| 四虎影视在线永久免费看黄| 热久久精品免费视频| 亚洲免费一级视频| 中文字幕无码播放免费| 亚洲精品视频在线播放| 亚洲伊人久久大香线蕉| 无码av免费毛片一区二区| 亚洲人成网网址在线看| 国产在线a免费观看| 亚洲午夜无码久久久久软件| 久久国产精品萌白酱免费| 久久噜噜噜久久亚洲va久| 国产92成人精品视频免费| 亚洲伦理中文字幕| 国产精品四虎在线观看免费 | 国产高清免费观看| 人人爽人人爽人人片A免费| 亚洲视频人成在线播放| 国产免费一区二区视频| 亚洲国产韩国一区二区| 日韩免费高清一级毛片在线| 日日摸夜夜添夜夜免费视频 | 99无码人妻一区二区三区免费| 亚洲午夜无码久久久久软件| 亚洲A丁香五香天堂网| 久爱免费观看在线网站| 在线观看亚洲AV每日更新无码| 免费99热在线观看| 日韩中文字幕免费视频| 亚洲性无码一区二区三区| 亚洲性日韩精品国产一区二区| 久久久久成人片免费观看蜜芽| 最新国产精品亚洲| 狠狠亚洲狠狠欧洲2019| 免费可以看黄的视频s色| 亚洲天堂免费在线视频| 夜色阁亚洲一区二区三区| 免费国产在线视频| 久久久久久亚洲精品无码|