Andrej Karpathy后悔放棄語言模型,卻搞了多年強化學(xué)習(xí),稱是研究生涯最大的錯誤

原標(biāo)題:Andrej Karpathy后悔放棄語言模型,卻搞了多年強化學(xué)習(xí),稱是研究生涯最大的錯誤
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):5395字
Andrej Karpathy的反思與大模型時代的啟示
在AI領(lǐng)域的快速發(fā)展中,Andrej Karpathy作為OpenAI的創(chuàng)始成員之一,最近表達(dá)了對自己研究方向的反思。他認(rèn)為自己在早期已認(rèn)識到自回歸語言模型的潛力,但卻在很長一段時間內(nèi)未能堅持這一方向,反而追隨了強化學(xué)習(xí)的潮流。這種“誤入歧途”的感慨引發(fā)了他對AI發(fā)展歷程的深思。
1. 強化學(xué)習(xí)的興起與局限
Karpathy提到,強化學(xué)習(xí)在2013年通過Atari RL論文開創(chuàng)了深度強化學(xué)習(xí)的新時代,并在2018年推出了OpenAI Five,展現(xiàn)了強化學(xué)習(xí)在復(fù)雜游戲中的應(yīng)用。然而,他也意識到,盡管這一領(lǐng)域一度繁榮,最終卻被大語言模型(LLM)的崛起所覆蓋,反映出強化學(xué)習(xí)的局限性。
2. Yann LeCun的洞察
Karpathy回憶起Yann LeCun當(dāng)時對強化學(xué)習(xí)的批評,認(rèn)為強化學(xué)習(xí)只是“蛋糕”上的櫻桃,而表征學(xué)習(xí)和監(jiān)督學(xué)習(xí)才是“蛋糕”的主體。這一觀點在今天看來尤為準(zhǔn)確,Karpathy承認(rèn),雖然強化學(xué)習(xí)在某些領(lǐng)域有效,但大模型的成功更依賴于預(yù)訓(xùn)練和監(jiān)督微調(diào)的結(jié)合。
3. RNN的潛力與探索
回顧過去,Karpathy早在2015年就已注意到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的巨大潛力。他在《RNN的不可思議有效性》中探討了RNN在文本生成和序列數(shù)據(jù)處理方面的能力,分享了用RNN生成類似莎士比亞作品的實驗,展示了RNN的訓(xùn)練過程和生成文本的能力。
4. 從RNN到大語言模型的演變
隨著谷歌在2017年發(fā)布的Transformer論文,AI領(lǐng)域迎來了新的突破,開啟了自注意力機制的研究。這一進展使得大模型的Scaling Laws逐漸被發(fā)掘,推動了AI技術(shù)的廣泛應(yīng)用與發(fā)展。Karpathy的反思不僅是對個人研究路徑的反思,也為我們提供了對AI未來發(fā)展的重要啟示。
總結(jié)
Karpathy的經(jīng)歷提醒我們,在AI研究中,跟隨潮流并不總是明智的選擇,正確的方向和深入的思考才是推動技術(shù)進步的關(guān)鍵。面對迅速變化的技術(shù)環(huán)境,回顧過去的經(jīng)驗,有助于我們更好地把握未來的發(fā)展方向。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189