前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
AIGC動態(tài)歡迎閱讀
原標題:前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
關鍵字:模型,任務,數(shù)據(jù),能力,人類
文章來源:人工智能學家
內容字數(shù):0字
內容摘要:
8月6日,OpenAI聯(lián)合創(chuàng)始人、ChatGPT架構師John Schulman宣布離職,將加入另一家由前OpenAI員工Dario Amodei創(chuàng)辦的大模型公司Anthropic。
近9年前,Schulman在研究生畢業(yè)后加入OpenAI,成為創(chuàng)始團隊的一員。他是深度強化學習的早期先驅之一,很多人不知道的是,他也是ChatGPT項目的負責人,是他領導了ChatGPT的秘密武器RLHF(人類反饋的強化學習)技術的研究與開發(fā)。
在負責ChatGPT之前,他發(fā)明了廣泛應用的近端策略優(yōu)化算法(PPO),這實際上也是ChatGPT訓練的一部分。他還發(fā)明了信任區(qū)域策略優(yōu)化(TRPO),對OpenAI Gym、OpenAI Benchmark以及現(xiàn)代深度學的許多元學習算法作出了重要貢獻。值得一提的是,其博士導師是強化學習領域開拓者、加州大學伯克利分校教授Pieter Abbeel。
Schulman兼具研究視野,又有豐富的工程實踐基礎。從碩士階段開始,他就開始研究強化學習算法,從數(shù)據(jù)收集與語言模型的訓練與交互,對大模型技術棧的不同部分都有豐富的經驗與探索。或許,他是對OpenAI大模型的獨門
原文鏈接:前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
聯(lián)系作者
文章來源:人工智能學家
作者微信:
作者簡介: