ICML 2024 Oral | DPO是否比PPO更適合LLM，清華吳翼團隊最新揭秘

AIGC動態(tài)歡迎閱讀

原標題：ICML 2024 Oral | DPO是否比PPO更適合LLM，清華吳翼團隊最新揭秘
關(guān)鍵字：模型,算法,團隊,代碼,工作
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com吳翼，清華大學(xué)交叉信息院助理教授，曾任 OpenAI 全職研究員，研究領(lǐng)域為強化學(xué)習，大模型對齊，人機交互，機器人學(xué)習等。2019 年在美國加州大學(xué)伯克利分校獲得博士學(xué)位，師從 Stuart Russell 教授；2014 年本科畢業(yè)于清華大學(xué)交叉信息院（姚班）。其代表作包括：NIPS2016 最佳論文，Value Iteration Network；多智能體深度強化學(xué)習領(lǐng)域最高引用論文，MADDPG 算法；OpenAI hide-and-seek 項目等。
如何讓大模型更好的遵從人類指令和意圖？如何讓大模型有更好的推理能力？如何讓大模型避免幻覺？能否解決這些問題，是讓大模型真正廣泛可用，甚至實現(xiàn)超級智能（Super Intelligence）最為關(guān)鍵的技術(shù)挑

原文鏈接：ICML 2024 Oral | DPO是否比PPO更適合LLM，清華吳翼團隊最新揭秘