AIGC動態歡迎閱讀
原標題:前OpenAI聯創、ChatGPT負責人John Schulman:大模型的升級秘訣
關鍵字:模型,任務,數據,能力,人類
文章來源:人工智能學家
內容字數:0字
內容摘要:
8月6日,OpenAI聯合創始人、ChatGPT架構師John Schulman宣布離職,將加入另一家由前OpenAI員工Dario Amodei創辦的大模型公司Anthropic。
近9年前,Schulman在研究生畢業后加入OpenAI,成為創始團隊的一員。他是深度強化學習的早期先驅之一,很多人不知道的是,他也是ChatGPT項目的負責人,是他領導了ChatGPT的秘密武器RLHF(人類反饋的強化學習)技術的研究與開發。
在負責ChatGPT之前,他發明了廣泛應用的近端策略優化算法(PPO),這實際上也是ChatGPT訓練的一部分。他還發明了信任區域策略優化(TRPO),對OpenAI Gym、OpenAI Benchmark以及現代深度學的許多元學習算法作出了重要貢獻。值得一提的是,其博士導師是強化學習領域開拓者、加州大學伯克利分校教授Pieter Abbeel。
Schulman兼具研究視野,又有豐富的工程實踐基礎。從碩士階段開始,他就開始研究強化學習算法,從數據收集與語言模型的訓練與交互,對大模型技術棧的不同部分都有豐富的經驗與探索。或許,他是對OpenAI大模型的獨門
原文鏈接:前OpenAI聯創、ChatGPT負責人John Schulman:大模型的升級秘訣
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...