ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘
AIGC動態(tài)歡迎閱讀
原標題:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘
關(guān)鍵字:模型,算法,團隊,代碼,工作
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com吳翼,清華大學(xué)交叉信息院助理教授,曾任 OpenAI 全職研究員,研究領(lǐng)域為強化學(xué)習,大模型對齊,人機交互,機器人學(xué)習等。2019 年在美國加州大學(xué)伯克利分校獲得博士學(xué)位,師從 Stuart Russell 教授;2014 年本科畢業(yè)于清華大學(xué)交叉信息院(姚班)。其代表作包括:NIPS2016 最佳論文,Value Iteration Network;多智能體深度強化學(xué)習領(lǐng)域最高引用論文,MADDPG 算法;OpenAI hide-and-seek 項目等。
如何讓大模型更好的遵從人類指令和意圖?如何讓大模型有更好的推理能力?如何讓大模型避免幻覺?能否解決這些問題,是讓大模型真正廣泛可用,甚至實現(xiàn)超級智能(Super Intelligence)最為關(guān)鍵的技術(shù)挑
原文鏈接:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: