LSTM之父：我也是注意力之父！1991年就發(fā)表線性復(fù)雜度，遙遙領(lǐng)先Transformer 26年

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

新智元報(bào)道編輯：LRS【新智元導(dǎo)讀】Transformer模型自2017年問世以來，已成為AI領(lǐng)域的核心技術(shù)，尤其在自然語言處理中占據(jù)主導(dǎo)地位。然而，關(guān)于其核心機(jī)制“注意力”的起源，學(xué)界存在爭(zhēng)議，一些學(xué)者如Jürgen Schmidhuber主張自己更早提出了相關(guān)概念。當(dāng)今AI屆的繁榮，很大程度上要?dú)w功于Transformer模型，2017年的開山之作，把「注意力機(jī)制」（attention）帶入了大眾的視野，此后七年中，在AI模型中占據(jù)了絕對(duì)的主導(dǎo)地位，甚至Attention is All You Need這個(gè)名字都讓之后的論文在起標(biāo)題時(shí)紛紛效仿，逐漸走向狂野。但「正統(tǒng)」注意力機(jī)制其實(shí)來源于2014年Bengio的論文，ACM還在圖靈獎(jiǎng)?lì)C獎(jiǎng)時(shí)，為Bengio寫的貢獻(xiàn)為「引入了一種注意力機(jī)制，帶來了機(jī)器翻譯的突破，并形成了深度學(xué)習(xí)順序處理的關(guān)鍵組成部分」。論文鏈接：https://arxiv.org/pdf/1409.0473最近，Andrej Karpathy在社交媒體上公開了與第一作者Dzmitry兩年前的聯(lián)絡(luò)郵件，詳細(xì)敘述了這段發(fā)明注意力的故事，頓時(shí)又掀起網(wǎng)友熱議。不過，LSTM作者Jürgen Schmidhuber卻不認(rèn)可這段故事，而是表明自己才是真正的創(chuàng)造者，1991年就已經(jīng)提出線性復(fù)雜度Transformer，并且在兩年后提出術(shù)語「注意力」，他在2023年12月還發(fā)表過一篇報(bào)告，控訴圖靈獎(jiǎng)三巨頭抄襲自己的研究成果。關(guān)于「Attention起源」的辯論進(jìn)展火熱，仿佛現(xiàn)代AI完全構(gòu)建在注意力機(jī)制的理論之上，關(guān)于Transformer、系統(tǒng)實(shí)現(xiàn)的重要性卻被忽視了。雖然Attention is All You Need論文的核心貢獻(xiàn)是引入Transformer神經(jīng)網(wǎng)絡(luò)，刪除了除各種注意力機(jī)制之外的所有模塊，并且基本上只是將其與多層感知機(jī)堆疊在ResNe中，但其實(shí)論文中還是有相當(dāng)多的貢獻(xiàn)和獨(dú)特想法，包括位置編碼、縮放注意力、多頭注意力、極簡(jiǎn)設(shè)計(jì)等等，并且被廣為接受。即便是到了今天，業(yè)內(nèi)普遍使用的模型架構(gòu)仍然大體遵循2017年的原始版本，只是在部分模塊進(jìn)行了簡(jiǎn)單的修改，比如更好的位置編碼方案（RoPE家族）等等。谷歌杰出科學(xué)家、計(jì)算成像、機(jī)器學(xué)習(xí)和視覺領(lǐng)域的專家Peyman Milanfar說的很中肯：我——或者我認(rèn)為任何成像領(lǐng)域的人——都不能合理地宣稱機(jī)器學(xué)習(xí)背景下的注意力概念有任何功勞。但記錄、追溯完整的歷史淵源是有價(jià)值的，如果不從更廣泛的角度來理解「依賴于數(shù)據(jù)的加權(quán)平均運(yùn)算」的重要性和普遍性，那追溯的歷史也是不完整的。最極端的例子莫過于一位網(wǎng)友的評(píng)價(jià)，「其實(shí)，算術(shù)的出現(xiàn)要比這些論文都早。」「注意力」的起源故事2014年，故事的主角Dzmitry Bahdanau還只是一個(gè)在德國(guó)雅各布大學(xué)（Jakobs University）剛完成碩士一年級(jí)的學(xué)生，之后選擇在Yoshua Bengio（圖靈獎(jiǎng)得主）的實(shí)驗(yàn)室開始實(shí)習(xí)。當(dāng)時(shí)他跟Yoshua表示干什么都行，然后Yoshua便讓他開始與Kyunghyun Cho的團(tuán)隊(duì)合作開發(fā)機(jī)器翻譯模型。當(dāng)時(shí)自然語言處理屆的主流思路是「把單詞序列轉(zhuǎn)為一個(gè)向量」，比如經(jīng)典的word2vec都是當(dāng)時(shí)常用的算法，但Dzmitry卻對(duì)這種想法表示懷疑，不過為了獲得博士的入學(xué)offer，他也只能聽從導(dǎo)師的話，從寫代碼、修復(fù)Bug等最基本的工作入手。逐步熟悉團(tuán)隊(duì)的工作內(nèi)容之后，Yoshua就對(duì)他發(fā)起了攻讀博士學(xué)位的邀請(qǐng)，當(dāng)時(shí)AI屆還沒有現(xiàn)在這么卷，這些工作已經(jīng)足以讓這位碩士生開始他的博士生涯了，Dzmitry至今仍表示慶幸、懷念。博士offer穩(wěn)了之后，據(jù)Dzmitry的說法是，可以享受科研樂趣，并充分發(fā)揮自己的創(chuàng)造力了！Dzmitry開始思考如何避免RNN模型中Encoder和Decoder之間的信息瓶頸，第一個(gè)想法是建立一個(gè)帶有兩個(gè)「光標(biāo)」（cursor）的模型：其中一個(gè)由BiRNN編碼，在源序列中移動(dòng)；另一個(gè)在目標(biāo)序列中移動(dòng)；光標(biāo)軌跡使用動(dòng)態(tài)規(guī)劃進(jìn)行邊際化。但Kyunghyun Cho認(rèn)為這種做法和Alex Graves的RNN Transducer模型沒什么兩樣。讀完Graves的手寫識(shí)別論文后，Dzmitry也認(rèn)可這種方法法對(duì)于機(jī)器翻譯來說不太合適，并且實(shí)習(xí)也只剩5周了，很難在短時(shí)間內(nèi)完成代碼實(shí)現(xiàn)，所以就嘗試了更簡(jiǎn)單的方法，讓兩個(gè)光標(biāo)同時(shí)、同步移動(dòng)，實(shí)際上相當(dāng)于硬編碼的對(duì)角注意力（hard-coded diagonal attention）。這種方法雖說有點(diǎn)效果，但不夠優(yōu)雅。某一天，Dzmitry受到了英語翻譯練習(xí)中的啟發(fā)，人類在翻譯時(shí)，目光會(huì)在源序列和目標(biāo)序列之間來回移動(dòng)，將軟搜索表示為softmax，然后對(duì)BiRNN狀態(tài)進(jìn)行加權(quán)平均，就能讓Decorder RNN學(xué)會(huì)在源序列中搜索放置光標(biāo)的位置。團(tuán)隊(duì)把這個(gè)架構(gòu)叫做RNNSearch，第一次嘗試效果就很好，只需要1個(gè)GPU就能運(yùn)行。當(dāng)時(shí)，谷歌的Ilya（OpenAI前首席科學(xué)家Ilya Sutskever）團(tuán)隊(duì)使用8個(gè)GPU的LSTM模型在某些指標(biāo)上仍然領(lǐng)先，所以團(tuán)隊(duì)趕緊在ArXiV上發(fā)表了一篇論文。后來團(tuán)隊(duì)發(fā)現(xiàn)，這個(gè)架構(gòu)的名字其實(shí)并不好，Yoshua在最后的一次修改中確定了「注意力機(jī)制」，直觀地看，讓解碼器來決定源語句中的哪些部分需要受到關(guān)注，減輕了編碼器將源語句中的所有信息編碼為固定長(zhǎng)度向量的負(fù)擔(dān)。通過這種新方法，信息可以分布在整個(gè)標(biāo)注序列中，解碼器可以有選擇地進(jìn)行檢索。一個(gè)半月后，團(tuán)隊(duì)又看了Alex Graves發(fā)表的關(guān)于NMT論文，想法完全相同，但出發(fā)點(diǎn)完全不同。Dzmitry發(fā)明新算法是需求驅(qū)動(dòng)的，Alex那邊或許是出于連接神經(jīng)學(xué)派和符號(hào)學(xué)派的目的；Jason Weston團(tuán)隊(duì)的Memory Networks論文也有類似的機(jī)制。Dzmitry表示沒有預(yù)見到注意力機(jī)制作為表征學(xué)習(xí)的核心算法，其實(shí)可以在更低的層次上使用。所以當(dāng)Transformer論文發(fā)表時(shí)，Dzmitry就立刻跟實(shí)驗(yàn)室的同事說，RNN已經(jīng)死了。總之，在蒙特利爾Yoshua的實(shí)驗(yàn)室中「可微且數(shù)據(jù)依賴的加權(quán)平均」（differentiable and data-dependent weighted average operation）的發(fā)明與神經(jīng)圖靈機(jī)、Memory Networks以及90年代（甚至 70 年代）的一些相關(guān)認(rèn)知科學(xué)論文無關(guān)，主要來源于Yoshua的領(lǐng)導(dǎo)，Kyunghyun Cho在管理由初級(jí)博士生和實(shí)習(xí)生組成的大型機(jī)器翻譯項(xiàng)目方面的出色技能，以及Dzmitry多年來在編程競(jìng)賽中磨練出的創(chuàng)造力和編程技能。即使Dzmitry、Alex Graves和其他人當(dāng)時(shí)沒有從事深度學(xué)習(xí)工作，這個(gè)想法也會(huì)由其他人發(fā)表出來。注意力機(jī)制只是深度學(xué)習(xí)中實(shí)現(xiàn)靈活空間連接的自然方式，只要GPU的運(yùn)算速度足夠快，讓科研人員有動(dòng)力并認(rèn)真對(duì)待深度學(xué)習(xí)，就會(huì)自然而然出現(xiàn)。良好的研發(fā)工作可以為基礎(chǔ)技術(shù)的進(jìn)步做出更多貢獻(xiàn)，而不是通常意義上、所謂「真正的」人工智能研究的花哨理論。九十年代的「注意力」機(jī)制正如Dzmitry所說，注意力機(jī)制其實(shí)就是模仿大腦的認(rèn)知過程，在更遙遠(yuǎn)的90年代，也是認(rèn)知科學(xué)快速發(fā)展的時(shí)代，類似注意力機(jī)制的模型也早有研究。最早的「可微加權(quán)平均操作」甚至并不來源于機(jī)器學(xué)習(xí)領(lǐng)域，而是圖像處理中常用的「濾波器」（filter）。比如最著名的是1998年Tomasi和Manduchi的雙邊濾波器，以及1997年Smith和Brady提出的SUSAN濾波器；后面還出現(xiàn)過許多變體形式，包括2005年的Buades、Coll和Morel提出的非局部均值，以及2007年P(guān)eyman Milanfar提出的更通用的核回歸濾波器。論文鏈接：https://ieeexplore.ieee.org/abstract/document/4060955阿卜杜拉科技大學(xué) (KAUST) 人工智能研究所所長(zhǎng)、瑞士人工智能實(shí)驗(yàn)室IDSIA科學(xué)主任、LSTM作者、現(xiàn)代人工智能之父Jürgen Schmidhube也參與到這場(chǎng)大戰(zhàn)之中。2023年12月，Jürgen就曾發(fā)布過一篇報(bào)告，控訴三位圖靈獎(jiǎng)得主Bengio， Hinton和LeCun各有相關(guān)工作參考于他之前的工作，但并沒有標(biāo)注引用，「抄襲」罪狀中，Bengio七條、Hinton六條、LeCun四條。報(bào)告鏈接：https://people.idsia.ch/~juergen/ai-priority-disputes.htmlJürgen在報(bào)告中指出，1991年3月，他就已經(jīng)提出了所謂的具有「線性自注意力」的非歸一化線性Transformer（unnormalized linear Transformer with linearized self-attention），只不過當(dāng)時(shí)的名字叫做「快速權(quán)重編程器」（Fast Weight Programmers）和「快速權(quán)重控制器」（Fast Weight Controllers），類似傳統(tǒng)計(jì)算機(jī)將存儲(chǔ)和控制分開的方式，以端到端可微分、自適應(yīng)、完全神經(jīng)的方法，只不過當(dāng)時(shí)Key/Value被稱為From/To雖然名字不一樣，但兩個(gè)模型背后的數(shù)學(xué)原理大致相同。1991年發(fā)表的模型原理類似于：為了回答接收到的query，通過梯度下降來學(xué)習(xí)生成key和value的模式，對(duì)自身的某些部分進(jìn)行重新編程，從而根據(jù)上下文將注意力引導(dǎo)到重要的事情上；現(xiàn)代Transformer也采用了同樣的原理。2021年，Jürgen在ICML上發(fā)表了一篇論文，進(jìn)一步證明了二者的等價(jià)性。論文鏈接：https://arxiv.org/pdf/2102.11174在1991年，當(dāng)時(shí)的計(jì)算成本比現(xiàn)在高出數(shù)百萬倍，所以計(jì)算效率很重要，Transformer的計(jì)算復(fù)雜度為二次方，所以無法擴(kuò)大數(shù)據(jù)處理規(guī)模，而快速權(quán)重編程器的計(jì)算復(fù)雜度只有線性，據(jù)Jürgen所說，當(dāng)年幾乎沒有期刊會(huì)接受二次縮放的神經(jīng)網(wǎng)絡(luò)。1993年，Jürgen對(duì)線性Transformer進(jìn)行循環(huán)擴(kuò)展時(shí)，使用了術(shù)語「注意力」。論文鏈接：https://sferics.idsia.ch/pub/juergen/ratio.pdf正如文章開頭所說，Bengio團(tuán)隊(duì)因注意力機(jī)制獲圖靈獎(jiǎng)，之后的工作都以Bengio 2014年的論文作為注意力機(jī)制起源。Jürgen還表示，在2010年代，ACM所謂的關(guān)鍵「機(jī)器翻譯的突破」也不是Bengio的功勞，而是LSTM的功勞，在2016年極大地改進(jìn)了Google 翻譯，甚至直到 2017 年，F(xiàn)acebook用戶每周還要進(jìn)行300億次基于LSTM的翻譯請(qǐng)求。總之，技術(shù)起源的是是非非很難辯個(gè)清楚，拿出小板凳，理性吃瓜！參考資料：https://x.com/SchmidhuberAI/status/1864701357107634390

閱讀原文