AIGC動態歡迎閱讀
原標題:人類偏好優化算法哪家強?跟著高手一文學懂DPO、IPO和KTO
關鍵字:模型,數據,作者,算法,參數
文章來源:機器之心
內容字數:10766字
內容摘要:
選自 huggingface.co/blog
作者:Kashif Rasul 等
機器之心編譯
編輯:趙陽?盡管收集人類對模型生成內容的相對質量的標簽,并通過強化學習從人類反饋(RLHF)來微調無監督大語言模型,使其符合這些偏好的方法極大地推動了對話式人工智能的發展。但由于 RLHF 是一個復雜且常常不穩定的過程,關于直接使用優化函數將人類的偏好和模型的結果進行對齊的研究成為時下的熱點問題。本文是 hugging face 上的一篇博客,針對時下常見的三種人類偏好優化算法進行了性能比較。作者進行了大量的實驗,旨在通過不同的模型和不同的超參數,對無需強化學習(或偏好調整)就能調整語言模型的三種可行方法進行評估。這三種優化方法是:
直接偏好優化 (Direct Preference Optimization, DPO)(https://huggingface.co/papers/2305.18290)
身份偏好優化 (Identity Preference Optimisation, IPO)(https://huggingface.co/papers/2310.12036)
Kahnem
原文鏈接:人類偏好優化算法哪家強?跟著高手一文學懂DPO、IPO和KTO
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...