Karpathy后悔了：2015年就看到了語言模型的潛力，卻搞了多年強(qiáng)化學(xué)習(xí)

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Karpathy后悔了：2015年就看到了語言模型的潛力，卻搞了多年強(qiáng)化學(xué)習(xí)
關(guān)鍵字：字符,解讀,模型,序列,神經(jīng)網(wǎng)絡(luò)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
機(jī)器之心編輯部耽誤業(yè)界好多年？「這是有史以來最大、最令人困惑的研究生涯錯誤，」Andrej Karpathy 感嘆道。
上個周末，OpenAI 創(chuàng)始成員、研究科學(xué)家、原特斯拉前 AI 高級總監(jiān)、AI 領(lǐng)域的大神 Andrej Karpathy 一直在后悔。后悔自己沒有早點(diǎn)帶領(lǐng) OpenAI 開創(chuàng)大模型時(shí)代。是怎么一回事？看起來 Karpathy 認(rèn)為當(dāng)年早已認(rèn)識到自回歸語言模型的強(qiáng)大潛力，但卻在很長一段時(shí)間里「誤入歧途」，隨大溜一起搞強(qiáng)化學(xué)習(xí)。2013 年的 Atari RL 論文被認(rèn)為是深度強(qiáng)化學(xué)習(xí)的開山之作：一個通用學(xué)習(xí)算法就發(fā)現(xiàn)了 Breakout 和許多其他游戲的最佳策略，看起來，在很多任務(wù)上我們只需要對其進(jìn)行足夠的改進(jìn)和擴(kuò)展，就可以構(gòu)建出強(qiáng)大的 AI 模型了。我們也還記得，在 Karpathy 跳槽去到特斯拉一年后，2018 年 OpenAI 推出了 OpenAI Five，利用強(qiáng)化學(xué)習(xí)的方法在 Dota 2 游戲上開始與職業(yè)選手過招。
在 2019 年，OpenAI 的研究者還訓(xùn)練神經(jīng)網(wǎng)絡(luò)，利用一只類人機(jī)械手來玩魔方，表明強(qiáng)化學(xué)習(xí)工具不僅僅可以處理虛擬任務(wù)，而

原文鏈接：Karpathy后悔了：2015年就看到了語言模型的潛力，卻搞了多年強(qiáng)化學(xué)習(xí)