<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型

        AIGC動態12個月前發布 機器之心
        772 0 0

        全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型

        AIGC動態歡迎閱讀

        原標題:全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型
        關鍵字:模型,差額,目標,長度,對數
        文章來源:機器之心
        內容字數:8475字

        內容摘要:


        機器之心報道
        編輯:Panda為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類反饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊 LLM 方面,一種有效的方法是根據人類反饋的強化學習(RLHF)。盡管經典 RLHF 方法的結果很出色,但其多階段的過程依然帶來了一些優化難題,其中涉及到訓練一個獎勵模型,然后優化一個策略模型來最大化該獎勵。
        近段時間已有一些研究者探索了更簡單的離線算法,其中之一便是直接偏好優化(DPO)。DPO 是通過參數化 RLHF 中的獎勵函數來直接根據偏好數據學習策略模型,這樣就無需顯式的獎勵模型了。該方法簡單穩定,已經被廣泛用于實踐。
        使用 DPO 時,得到隱式獎勵的方式是使用當前策略模型和監督式微調(SFT)模型之間的響應似然比的對數 的對數比。但是,這種構建獎勵的方式并未與引導生成的指標直接對齊,該指標大約是策略模型所生成響應的平均對數似然。訓練和推理之間的這種差異可能導致性能不佳。
        為此,弗吉尼亞大學的助理教授孟瑜與普林斯頓大學的在讀博士夏夢舟和助理教授陳丹琦三人共同提出了 SimPO—— 一種簡單卻有效的離線偏好優化算法。論文標題:Si


        原文鏈接:全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品日韩专区AV| 日韩欧毛片免费视频 | 69av免费视频| 亚洲AV成人片色在线观看| 久久精品乱子伦免费| 亚洲AV无码一区二区乱子伦 | 少妇太爽了在线观看免费视频| 亚洲第一极品精品无码久久| a在线视频免费观看| 亚洲国产精品第一区二区| 99热这里只有精品6免费| 亚洲a视频在线观看| 岛国大片免费在线观看| 羞羞视频免费观看| 亚洲综合亚洲综合网成人| 国产在线观看无码免费视频| 亚洲Av无码精品色午夜| 97人妻无码一区二区精品免费| 亚洲va在线va天堂成人| 四虎亚洲国产成人久久精品| 久久www免费人成精品香蕉| 亚洲国产精品人久久| 最近2019中文字幕免费看最新| 最新亚洲人成无码网www电影| 久久久久亚洲av成人无码电影| 国产精品白浆在线观看免费| 国产精品亚洲综合五月天| mm1313亚洲精品国产| 免费人成在线观看网站| 亚洲宅男精品一区在线观看| 成人亚洲网站www在线观看| 可以免费观看的毛片| 亚洲人成网站999久久久综合| 不卡一卡二卡三亚洲| 亚洲视频免费在线播放| 亚洲a∨无码精品色午夜| 国产成A人亚洲精V品无码 | 内射无码专区久久亚洲| 久久99青青精品免费观看| 亚洲欧洲无码AV不卡在线| 亚洲欧洲成人精品香蕉网|