AIGC動態歡迎閱讀
原標題:2024年大模型Alignment偏好優化技術:從PPO, SPO到MCTS-DPO
關鍵字:模型,數據,方法,函數,侵權
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
文章轉載自公眾號:極市平臺,本文只做學術/技術分享,如有侵權,聯系刪文。
導讀本文討論了2024年大模型Alignment偏好優化技術的發展,包括從PPO、SPO到MCTS-DPO的各種技術,涉及模型安全和Agents應用,以及如何通過不同的優化方法提高大型語言模型與人類價值觀和意圖的一致性。文章還介紹了一些最新的優化技術,如KTO、ORPO、SimPO、TDPO、Step-DPO、DMPO和SPO,以及它們在提高模型性能方面的應用和效果。今年做過一段時間的 alignment 工作,做得有點不開心,各種 social 的原因,覺得自己的發揮受到了限制,最近又閑下來了,所以看了一些相關的論文,但是對這個方向還是挺感興趣的,這里來分享一下我對 alignment 的一些理解。
對齊一般使用的是 chat 或者 instruct 模型,而不是 base 模型,自從 OpenAI 利用 RLHF 做人類偏好對齊后,開源社區就涌現了一些列的對齊技術。RL 技術中,典型的是 PPO(缺點是訓練不太穩定,效率低),如果數據集是人類標注的就是 RLHF,如果是 GPT,PaLM2 等模型標注的,就是
原文鏈接:2024年大模型Alignment偏好優化技術:從PPO, SPO到MCTS-DPO
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...