AIGC動態歡迎閱讀
內容摘要:
AGI 正在迎來新范式,RL 是 LLM 的秘密武器。最近幾個月,我們能明顯感受到頭部 AI labs 在形成一些新:post training 的重要程度在提高,需要的計算資源可能在未來超過 pre training;RL 成為提高模型 reasoning 能力的重要范式,需要大量的探索和突破。今天我們討論的 Agent 也是從強化學習中最早被定義的。曾在 OpenAI 負責 post-traning 的John Schulman是 RL 的擁躉和布道者,他認為,post-training 是模型變得越來越聰明的重要原因,而 RLHF 是這其中最重要的技術 tricks。John Schulman 對 RLHF 的信仰來自他在 OpenAI 的親身實踐:GPT-4 的 Elo 分數之所以能比第一代 GPT 高出 100 分也和 post-traning 的提升相關。
Scaling law 讓 AI 更聰明,而 RL 讓 AI 更有用。我們相信,RL 會在 LLM 發展中扮演越來越重要的作用。
為了幫助大家更全面理解 RL,邊塞科技的創始人及 CEO 吳翼將分享 RL 的基本原理
原文鏈接:RL 是 LLM 的新范式
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...