<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        被忽略的起點(diǎn)?Karpathy揭秘最初的注意力論文被Transformer光芒掩蓋的故事

        AIGC動(dòng)態(tài)10個(gè)月前發(fā)布 機(jī)器之心
        238 0 0

        機(jī)器之心報(bào)道編輯:Panda幾個(gè)小時(shí)前,著名 AI 研究者、OpenAI 創(chuàng)始成員之一 Andrej Karpathy 發(fā)布了一篇備受關(guān)注的長(zhǎng)推文,其中分享了注意力機(jī)制背后一些或許少有人知的故事。其中最值得注意的一個(gè)故事是真正首次提出注意力機(jī)制的論文其實(shí)是 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的《Neural Machine Translation by Jointly Learning to Align and Translate》,這比《Attention is All you Need》還早 3 年,但很顯然,這篇論文并沒(méi)有收獲后者那般的關(guān)注。Karpathy 長(zhǎng)推文的不完整截圖實(shí)際上,這個(gè)故事來(lái)自 Dzmitry Bahdanau 發(fā)給 Karpathy 的一封郵件。Bahdanau 是 ServiceNow Research 的研究科學(xué)家和研究負(fù)責(zé)人以及麥吉爾大學(xué)兼職教授。他在發(fā)給 Karpathy 的這封郵件中分享了自己發(fā)現(xiàn)注意力機(jī)制的旅程以及 Attention 這個(gè)術(shù)語(yǔ)的由來(lái)——其實(shí)來(lái)自 Yoshua Bengio。此外,他也提到了 Alex Graves 的 NMT 論文和 Jason Weston 的記憶網(wǎng)絡(luò)(Memory Networks)論文各自發(fā)現(xiàn)類似機(jī)制的故事。Karpathy 推文發(fā)布后反響熱烈,短時(shí)間內(nèi)就已有超過(guò) 20 萬(wàn)閱讀量,很多讀者都被這個(gè)注意力背后的故事吸引。有讀者在看過(guò)這個(gè)故事后發(fā)出感嘆:2013-2017 年間的深度學(xué)習(xí)宇宙中有很多隱藏的英雄。也有人分享自己對(duì)注意力機(jī)制的看法。Hyperbolic Labs 創(chuàng)始人和 CTO Yuchen Jin 更是打趣說(shuō)《Attention Is All You Need》的另一項(xiàng)重要貢獻(xiàn)是將后面的 AI 論文標(biāo)題帶歪了:「吸引注意力的標(biāo)題才是 All You Need」。注意力機(jī)制的背后故事下面我們就來(lái)看看 Karpathy 的推文究竟說(shuō)了什么:「attention」算子——也就是提出了 Transformer 的《Attention is All you Need》中的那個(gè)注意力,背后的(真實(shí))開(kāi)發(fā)和靈感故事。來(lái)自大約 2 年前與作者 @DBahdanau 的個(gè)人電子郵件通信,在此發(fā)布(經(jīng)許可)。此前幾天,網(wǎng)上流傳著一些關(guān)于其開(kāi)發(fā)過(guò)程的假新聞。Attention 是一種出色的(數(shù)據(jù)依賴型)加權(quán)平均運(yùn)算。它是一種形式的全局池化、歸約、通信。它是一種從多個(gè)節(jié)點(diǎn)(token、圖塊等)聚合相關(guān)信息的方法。它富有表現(xiàn)力、功能強(qiáng)大、具有足夠的并行性,并且可以高效優(yōu)化。甚至多層感知器(MLP)實(shí)際上也可以大致重寫(xiě)為數(shù)據(jù)型權(quán)重上的 Attention(第一層權(quán)重是查詢,第二層權(quán)重是值,鍵就是輸入,softmax 變?yōu)樵丶?jí),刪除了規(guī)范化)。簡(jiǎn)單來(lái)說(shuō),注意力非常棒,是神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中的重大突破。《Attention is All You Need》獲得的…… 呃…… 注意力差不多是 3 年前真正提出 Attention 的論文的 100 倍,即 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的論文《Neural Machine Translation by Jointly Learning to Align and Translate》。在我看來(lái),這一直有點(diǎn)出人意料。顧名思義,《Attention is All You Need》的核心貢獻(xiàn)是提出:Transformer 神經(jīng)網(wǎng)絡(luò)就是刪除注意力之外的一切,然后基本上就是將其堆疊在帶有 MLP(根據(jù)上述內(nèi)容,這也可以大致被視為注意力)的 ResNet 中。但我確實(shí)認(rèn)為這篇 Transformer 論文有自己獨(dú)特的價(jià)值,因?yàn)樗淮涡蕴砑恿似渌S多令人驚嘆的想法,包括位置編碼、縮放式注意力、多頭注意力、各向同性的簡(jiǎn)單設(shè)計(jì)等。在我看來(lái),直到今天(大約 7 年過(guò)去了),Transformer 基本上還保持著 2017 年的形式,只有相對(duì)較少的微小修改,也許除了使用更好的位置編碼方案(RoPE 等)。總之,我先把完整郵件貼在下面,其中也暗示了這個(gè)運(yùn)算一開(kāi)始被稱為 Attention 的原因 —— 它源自對(duì)源句子中詞的關(guān)注(attending)并同時(shí)以順序方式輸出翻譯結(jié)果的詞,并且之后 Yoshua Bengio 在 RNNSearch 中將其引入成了一個(gè)術(shù)語(yǔ)(感謝上帝?:D)。同樣有趣的是,該設(shè)計(jì)的靈感來(lái)自人類的認(rèn)知過(guò)程/策略,即按順序來(lái)回關(guān)注一些數(shù)據(jù)。最后,從發(fā)展進(jìn)步的本質(zhì)來(lái)看,這個(gè)故事相當(dāng)有趣——類似的想法和表述「早就已經(jīng)在空氣中回蕩」,特別要提到當(dāng)時(shí) Alex Graves(NMT)和 Jason Weston(記憶網(wǎng)絡(luò))的工作。謝謝你的故事 @DBahdanau !之后,Karpathy 還做了一些補(bǔ)充:ChatGPT 以及絕大多數(shù)現(xiàn)代 AI 模型都是巨型 Transformer。「所以 LLM 的核心神奇之處來(lái)自于反復(fù)應(yīng)用注意力,一遍又一遍地關(guān)注輸入的 token,以預(yù)測(cè)下一個(gè) token 是什么。」Dzmitry Bahdanau 的原始郵件內(nèi)容Karpathy 也一并分享了 Dzmitry Bahdanau 的原始郵件內(nèi)容:嗨,Andrej,很高興告訴你 8 年前發(fā)生的故事!我在雅各布大學(xué) Herbert Jaeger 的指導(dǎo)下完成碩士課程的第一年后,作為實(shí)習(xí)生來(lái)到了 Yoshua 的實(shí)驗(yàn)室。我告訴 Yoshua 我很樂(lè)意做任何事情。Yoshua 讓我參與機(jī)器翻譯項(xiàng)目,與 Kyunghyun Cho 和團(tuán)隊(duì)一起工作。我當(dāng)時(shí)非常懷疑將詞序列塞入向量的想法。但我也非常想獲得博士學(xué)位。所以我擼起袖子,開(kāi)始做我擅長(zhǎng)的事情——編寫(xiě)代碼、修復(fù)錯(cuò)誤等等。在某個(gè)時(shí)候,我表現(xiàn)得很了解我做的東西了,Yoshua 邀請(qǐng)我攻讀博士學(xué)位(2014 年是一個(gè)很好的時(shí)機(jī),表現(xiàn)得很了解就已經(jīng)足夠了——美好的舊時(shí)光!)。我非常高興,我認(rèn)為可以開(kāi)始享受樂(lè)趣并發(fā)揮創(chuàng)造力了。所以我開(kāi)始思考如何避免編碼器和解碼器 RNN 之間的瓶頸。我的第一個(gè)想法是構(gòu)建一個(gè)帶有兩個(gè)「光標(biāo)」的模型,一個(gè)在源序列中移動(dòng)(由一個(gè) BiRNN 編碼),另一個(gè)在目標(biāo)序列中移動(dòng)。使用動(dòng)態(tài)規(guī)劃(dynamic programming)可以將光標(biāo)軌跡邊緣化。KyungHyun Cho 認(rèn)為這相當(dāng)于 Alex Graves 的 RNN Transducer 模型。之后,我可能還讀了 Graves 的手寫(xiě)識(shí)別論文。不過(guò),這種方法看起來(lái)不適合機(jī)器翻譯。在我實(shí)習(xí)的剩余 5 周內(nèi),上述使用光標(biāo)的方法很難實(shí)現(xiàn)。所以我嘗試了一種更簡(jiǎn)單的方法——兩個(gè)光標(biāo)同時(shí)同步移動(dòng)(實(shí)際上是硬編碼的對(duì)角注意力)。這種方法有點(diǎn)效果,但方法不夠優(yōu)雅。所以有一天,我想到如果能讓解碼器 RNN 學(xué)會(huì)在源序列中搜索放置光標(biāo)的位置就好了。這多少受到我中學(xué)時(shí)學(xué)習(xí)英語(yǔ)時(shí)的翻譯練習(xí)的啟發(fā)。翻譯時(shí),你的目光會(huì)在源序列和目標(biāo)序列之間來(lái)回移動(dòng)。我將這種軟性搜索表示為 softmax,然后對(duì) BiRNN 狀態(tài)進(jìn)行加權(quán)平均。它的效果很好,從第一次嘗試,到后來(lái)振奮人心。我將這個(gè)架構(gòu)稱為 RNNSearch,我們急于發(fā)表一篇 arXiv 論文,因?yàn)槲覀冎拦雀璧?Ilya 和同事領(lǐng)先于我們,他們有巨大的 8 GPU LSTM 模型(而 RNN Search 仍在 1 GPU 上運(yùn)行)。后來(lái)發(fā)現(xiàn),這個(gè)名字并不好。直到最后幾次過(guò)論文時(shí),Yoshua 才將更好的名字(attention)添加到論文結(jié)論中。一個(gè)半月后,我們看到了 Alex Graves 的 NMT 論文。這確實(shí)是完全相同的想法,盡管他提出它的動(dòng)機(jī)完全不同。在我們的情況下,是因?yàn)樾枰a(chǎn)生了這個(gè)發(fā)明。在他的情況下,我想應(yīng)該是將神經(jīng)和符號(hào) AI 連接起來(lái)的雄心吧?Jason Weston 及其同事的記憶網(wǎng)絡(luò)論文也采用了類似的機(jī)制。我沒(méi)有遠(yuǎn)見(jiàn)地想到注意力可以在較低的層級(jí)使用,以作為表征學(xué)習(xí)的核心運(yùn)算。但是當(dāng)我看到 Transformer 論文時(shí),我立即向?qū)嶒?yàn)室同事斷言 RNN 已死。回到你最初的問(wèn)題:在蒙特利爾 Yoshua 的實(shí)驗(yàn)室發(fā)明的「可微分和數(shù)據(jù)依賴加權(quán)平均」于神經(jīng)圖靈機(jī)、記憶網(wǎng)絡(luò)以及 90 年代(甚至 70 年代)的一些相關(guān)認(rèn)知科學(xué)論文。這是 Yoshua 領(lǐng)導(dǎo)推動(dòng)實(shí)驗(yàn)室進(jìn)行雄心勃勃的研究的結(jié)果,KyungHyun Cho 在運(yùn)行一個(gè)大型機(jī)器翻譯項(xiàng)目方面擁有高超的技能,該項(xiàng)目由初級(jí)博士生和實(shí)習(xí)生組成;最后,我自己的創(chuàng)造力和編碼技能在多年的競(jìng)爭(zhēng)性編程中得到了磨練。但我認(rèn)為這個(gè)想法很快就會(huì)被發(fā)現(xiàn)。就算我、Alex Graves 和這個(gè)故事中的其他角色當(dāng)時(shí)沒(méi)有研究深度學(xué)習(xí)也是如此,注意力就是深度學(xué)習(xí)中實(shí)現(xiàn)靈活空間連接的自然方式。等待 GPU 足夠快,讓人們有動(dòng)力認(rèn)真對(duì)待深度學(xué)習(xí)研究,這是一個(gè)顯而易見(jiàn)的想法。自從我意識(shí)到這一點(diǎn)以來(lái),我在 AI 領(lǐng)域的抱負(fù)就是啟動(dòng)像機(jī)器翻譯項(xiàng)目這樣的出色的應(yīng)用項(xiàng)目。相比于那些研究所謂的「真正」AI 的花哨理論,良好的研發(fā)工作可以為基礎(chǔ)技術(shù)的進(jìn)步做出更大貢獻(xiàn)。就這些!我非常想更多了解關(guān)于您的教育 AI 項(xiàng)目的信息(我從 Harm de Vries 那里聽(tīng)到了一些傳言;))。祝好,Dima相關(guān)論文最后,下面梳理了前面提及的相關(guān)論文,以幫助感興趣的讀者做進(jìn)一步的技術(shù)探索。Neural Machine Translation by Jointly Learning to Align and Translate,未得到應(yīng)有關(guān)注的注意力論文作者:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio鏈接:https://arxiv.org/abs/1409.0473Attention is All You Need,著名的 Transformer 論文作者:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin鏈接:https://arxiv.org/abs/1706.03762Neural Turing Machines,其中幾乎同時(shí)提出了類似的 soft pooling 運(yùn)算作者:Alex Graves, Greg Wayne, Ivo Danihelka鏈接:https://arxiv.org/abs/1410.5401Generating Sequences With Recurrent Neural Networks,研究了使用 LTSM 循環(huán)神經(jīng)網(wǎng)絡(luò)生成具有長(zhǎng)程結(jié)構(gòu)的復(fù)雜序列,很有開(kāi)創(chuàng)性作者:Alex Graves鏈接:https://arxiv.org/abs/1308.0850Memory Networks,記憶網(wǎng)絡(luò)作者:Jason Weston, Sumit Chopra, Antoine Bordes鏈接:https://arxiv.org/abs/1410.3916Sequence to Sequence Learning with Neural Networks,文中提到的當(dāng)時(shí)在谷歌的 Ilya 等人的論文作者:Ilya Sutskever, Oriol Vinyals, Quoc V. Le鏈接:https://arxiv.org/abs/1409.3215參考鏈接https://x.com/karpathy/status/1864023344435380613https://x.com/karpathy/status/18640300164573759162024亞馬遜云科技 re:lnvent 《拉斯維加斯有約》直擊現(xiàn)場(chǎng)——Swami Sivasubramanian 博士主題演講中文解讀第一時(shí)間深度解讀亞馬遜云科技2024年re:Invent 年度盛會(huì)!了解亞馬遜云科技獨(dú)樹(shù)一幟的創(chuàng)新實(shí)踐與文化和全系列前沿解決方案、如何開(kāi)拓創(chuàng)新并引領(lǐng)全球云計(jì)算的全方位發(fā)展、如何重構(gòu)基礎(chǔ)架構(gòu)并打造全新體驗(yàn),探索如何依托強(qiáng)大的數(shù)據(jù)基礎(chǔ)為客戶打造創(chuàng)新的、差異化的解決方案。聆聽(tīng)客戶發(fā)言人分享真實(shí)案例,了解如何利用數(shù)據(jù)支持包括生成式 AI 在內(nèi)的各種應(yīng)用場(chǎng)景,進(jìn)而打造獨(dú)一無(wú)二的客戶體驗(yàn)。分享亞馬遜云科技及其合作伙伴為客戶帶來(lái)的積極變革,賦能其重塑商業(yè)模式、取得非凡成就。這不僅是一場(chǎng)深入了解前沿技術(shù)、數(shù)據(jù)應(yīng)用和創(chuàng)新實(shí)踐的盛會(huì),更是一個(gè)不容錯(cuò)過(guò)的交流平臺(tái)。期待您的加入!?THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 国产成人久久精品亚洲小说| 亚洲av成人无码久久精品| 国产1000部成人免费视频| 4399影视免费观看高清直播| 最近中文字幕mv手机免费高清| 最好免费观看韩国+日本| 最近免费中文字幕大全免费| 无码一区二区三区AV免费| jjzz亚洲亚洲女人| 亚洲成人动漫在线| 一级毛片不卡片免费观看| 免费国产黄线在线观看| 久久亚洲国产精品五月天| 久久永久免费人妻精品| 又爽又黄无遮挡高清免费视频| 久久亚洲精品无码VA大香大香| 亚洲乱码中文字幕在线| 中文字幕乱码免费看电影| 大学生一级特黄的免费大片视频| 久久国产亚洲精品麻豆| 亚洲日本成本人观看| 日日夜夜精品免费视频| 一级一级一片免费高清| 最近中文字幕无吗免费高清| 亚洲AV网一区二区三区| 性xxxx视频播放免费| 成年免费a级毛片| 国产免费拔擦拔擦8x| 亚洲最大av资源站无码av网址| 午夜老司机永久免费看片| 亚洲欧洲日产韩国在线| 日本免费人成视频在线观看| 中文字幕亚洲日本岛国片| 日本系列1页亚洲系列| 亚洲综合另类小说色区| 久久er国产精品免费观看8| 亚洲?v女人的天堂在线观看| 在线人成免费视频69国产| 亚洲精品制服丝袜四区| 成年网站免费入口在线观看| 久久精品国产精品亚洲艾草网|