AIGC動態歡迎閱讀
原標題:萬字長文解析OpenAI o1 Self-Play RL技術路線
關鍵字:模型,方式,能力,語言,領域
文章來源:人工智能學家
內容字數:0字
內容摘要:
來源:AI大模型實驗室
OpenAI 的 Self-Play RL 新模型 o1 最近交卷,直接引爆了關于對于 Self-Play 的討論。在數理推理領域獲得了傲人的成績,同時提出了 train-time compute 和 test-time compute 兩個全新的 RL Scaling Law。這篇文章用大概一萬字的內容,徹底深入分析并推演一遍其中的相關技術細節。
#01
o1,而今邁步從頭越首先要說一下,o1 是一個多模態模型,很多人包括 Jim Fan 都忽略了這一點:
因此它繼續叫做 o,作為 omni 系列是沒有任何疑問的。只不過這次發布是過于低調了,很多人都沒有注意到這個拉爆了所有其他多模態框架的 78.1 分。
那么這個 o1,說明這個技術路線就是一個全新的模型 pipeline 弄出來的了。作為一個全新的多模態 Self-Play RL 模型,首秀的成績還是相當不錯的。雖然現在評價該 Self-Play 方法是否能夠泛化至多模態還為時尚早,但是至少語言層面的 Reasoning 能力進化沒有以犧牲其他模態的能力作為基礎。
另外這個模型 official name
原文鏈接:萬字長文解析OpenAI o1 Self-Play RL技術路線
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...