AIGC動態歡迎閱讀
原標題:全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型
關鍵字:模型,差額,目標,長度,對數
文章來源:機器之心
內容字數:8475字
內容摘要:
機器之心報道
編輯:Panda為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類反饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊 LLM 方面,一種有效的方法是根據人類反饋的強化學習(RLHF)。盡管經典 RLHF 方法的結果很出色,但其多階段的過程依然帶來了一些優化難題,其中涉及到訓練一個獎勵模型,然后優化一個策略模型來最大化該獎勵。
近段時間已有一些研究者探索了更簡單的離線算法,其中之一便是直接偏好優化(DPO)。DPO 是通過參數化 RLHF 中的獎勵函數來直接根據偏好數據學習策略模型,這樣就無需顯式的獎勵模型了。該方法簡單穩定,已經被廣泛用于實踐。
使用 DPO 時,得到隱式獎勵的方式是使用當前策略模型和監督式微調(SFT)模型之間的響應似然比的對數 的對數比。但是,這種構建獎勵的方式并未與引導生成的指標直接對齊,該指標大約是策略模型所生成響應的平均對數似然。訓練和推理之間的這種差異可能導致性能不佳。
為此,弗吉尼亞大學的助理教授孟瑜與普林斯頓大學的在讀博士夏夢舟和助理教授陳丹琦三人共同提出了 SimPO—— 一種簡單卻有效的離線偏好優化算法。論文標題:Si
原文鏈接:全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,還煉出最強8B開源模型
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...