OpenAI o1是AGI下半場的開始,強化學習將成為新的 Scaling Law
AIGC動態歡迎閱讀
原標題:OpenAI o1是AGI下半場的開始,強化學習將成為新的 Scaling Law
關鍵字:模型,公司,能力,機器人,領域
文章來源:Founder Park
內容字數:0字
內容摘要:
隨著 OpenAI o1 模型的發布,LLM 正式進入 self-play RL 范式時代。
Self-play RL 似乎在一夜之間,成為了新的 scaling law。
OpenAI 不是唯一重視 RL 和 Self-Play 的公司,在 o1 之前,Anthropic Claude 3.5 Sonnet 就被視為一個標志性里程碑,Claude 3.5 Sonnet 代碼能力顯著提升的背后其實是 RL 在起作用;Google 也已經圍繞 LLM 做 reward model 展開了多個項目的研究;前 OpenAI 的核心人物 Ilya 創立的新項目 SSI 也和 RL 相關。o1 的發布勢必會加速新范式的形成,將 RL 從頭部 AI Labs 的嘗試向全行業擴散。
o1 只是 AGI 下半場的開始,接下來 Anthropic Claude 3.5 系列新模型的發布也同樣值得期待,Claude 3.5 和 o1 的表現會是 RL 進程是否順利的風向標。
本期內容是海外獨角獸「全球大模型季報」的第四集,錄制于 2 周前,拾象科技 CEO 李廣密和商業作者張小珺圍繞 AGI 發展路徑
原文鏈接:OpenAI o1是AGI下半場的開始,強化學習將成為新的 Scaling Law
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...