ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團(tuán)隊(duì)最新揭秘

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團(tuán)隊(duì)最新揭秘
關(guān)鍵字:模型,算法,團(tuán)隊(duì),代碼,工作
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com吳翼,清華大學(xué)交叉信息院助理教授,曾任 OpenAI 全職研究員,研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí),大模型對(duì)齊,人機(jī)交互,機(jī)器人學(xué)習(xí)等。2019 年在美國加州大學(xué)伯克利分校獲得博士學(xué)位,師從 Stuart Russell 教授;2014 年本科畢業(yè)于清華大學(xué)交叉信息院(姚班)。其代表作包括:NIPS2016 最佳論文,Value Iteration Network;多智能體深度強(qiáng)化學(xué)習(xí)領(lǐng)域最高引用論文,MADDPG 算法;OpenAI hide-and-seek 項(xiàng)目等。
如何讓大模型更好的遵從人類指令和意圖?如何讓大模型有更好的推理能力?如何讓大模型避免幻覺?能否解決這些問題,是讓大模型真正廣泛可用,甚至實(shí)現(xiàn)超級(jí)智能(Super Intelligence)最為關(guān)鍵的技術(shù)挑
原文鏈接:ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團(tuán)隊(duì)最新揭秘
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)