Karpathy后悔了:2015年就看到了語(yǔ)言模型的潛力,卻搞了多年強(qiáng)化學(xué)習(xí)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Karpathy后悔了:2015年就看到了語(yǔ)言模型的潛力,卻搞了多年強(qiáng)化學(xué)習(xí)
關(guān)鍵字:字符,解讀,模型,序列,神經(jīng)網(wǎng)絡(luò)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部耽誤業(yè)界好多年?「這是有史以來(lái)最大、最令人困惑的研究生涯錯(cuò)誤,」Andrej Karpathy 感嘆道。
上個(gè)周末,OpenAI 創(chuàng)始成員、研究科學(xué)家、原特斯拉前 AI 高級(jí)總監(jiān)、AI 領(lǐng)域的大神 Andrej Karpathy 一直在后悔。后悔自己沒(méi)有早點(diǎn)帶領(lǐng) OpenAI 開創(chuàng)大模型時(shí)代。是怎么一回事?看起來(lái) Karpathy 認(rèn)為當(dāng)年早已認(rèn)識(shí)到自回歸語(yǔ)言模型的強(qiáng)大潛力,但卻在很長(zhǎng)一段時(shí)間里「誤入歧途」,隨大溜一起搞強(qiáng)化學(xué)習(xí)。2013 年的 Atari RL 論文被認(rèn)為是深度強(qiáng)化學(xué)習(xí)的開山之作:一個(gè)通用學(xué)習(xí)算法就發(fā)現(xiàn)了 Breakout 和許多其他游戲的最佳策略,看起來(lái),在很多任務(wù)上我們只需要對(duì)其進(jìn)行足夠的改進(jìn)和擴(kuò)展,就可以構(gòu)建出強(qiáng)大的 AI 模型了。我們也還記得,在 Karpathy 跳槽去到特斯拉一年后,2018 年 OpenAI 推出了 OpenAI Five,利用強(qiáng)化學(xué)習(xí)的方法在 Dota 2 游戲上開始與職業(yè)選手過(guò)招。
在 2019 年,OpenAI 的研究者還訓(xùn)練神經(jīng)網(wǎng)絡(luò),利用一只類人機(jī)械手來(lái)玩魔方,表明強(qiáng)化學(xué)習(xí)工具不僅僅可以處理虛擬任務(wù),而
原文鏈接:Karpathy后悔了:2015年就看到了語(yǔ)言模型的潛力,卻搞了多年強(qiáng)化學(xué)習(xí)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: