強(qiáng)化學(xué)習(xí)成為OpenAI o1靈魂,速來學(xué)習(xí)下Self-play增強(qiáng)大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:強(qiáng)化學(xué)習(xí)成為OpenAI o1靈魂,速來學(xué)習(xí)下Self-play增強(qiáng)大模型
關(guān)鍵字:解讀,模型,自我,語言,計(jì)算機(jī)系
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
在機(jī)器學(xué)習(xí)尤其是強(qiáng)化學(xué)習(xí)領(lǐng)域,自我博弈(Self-play)是一種非常重要的學(xué)習(xí)策略。即使 AI 或者智能體沒有明確的對(duì)手或者沒有外部環(huán)境提供額外信息,也能通過自己與自己的博弈來學(xué)習(xí)并獲得提升,這常見于游戲場(chǎng)景。AlphaGo 就是采用自我博弈策略的典型代表,通過自己與自己對(duì)戰(zhàn),持續(xù)掌握和積累圍棋知識(shí)和比賽經(jīng)驗(yàn),最終擊敗頂級(jí)人類棋手。
隨著大語言模型的發(fā)展,自我博弈因其能夠充分利用計(jì)算資源和合成數(shù)據(jù)成為提升模型性能的方法之一。
最近發(fā)布的 OpenAI 發(fā)布的 o1 模型再次震撼了科技圈,o1 能像人類一樣「思考」復(fù)雜問題,擁有真正的通用推理能力。不專門訓(xùn)練,o1 可以直接拿下數(shù)學(xué)奧賽金牌,甚至能在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家。
這些突破性的進(jìn)展是如何達(dá)成的呢?在研發(fā)團(tuán)隊(duì)發(fā)布的慶功視頻里,OpenAI 的研究人員透露,關(guān)鍵在于他們采用了強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行模型訓(xùn)練。這也讓大家重新開始關(guān)注自我博弈策略。
其實(shí) 2024 年以來,加州大學(xué)洛杉磯分校(UCLA)計(jì)算機(jī)系教授顧全全團(tuán)隊(duì)連續(xù)發(fā)表兩篇基于自我博弈的大語言模型增強(qiáng)論文,分別是自我博弈微調(diào)(Self-Play Fine-Tunin
原文鏈接:強(qiáng)化學(xué)習(xí)成為OpenAI o1靈魂,速來學(xué)習(xí)下Self-play增強(qiáng)大模型
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: