LSTM之父:我也是注意力之父!1991年就發(fā)表線性復(fù)雜度,遙遙領(lǐng)先Transformer 26年
新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】Transformer模型自2017年問世以來,已成為AI領(lǐng)域的核心技術(shù),尤其在自然語言處理中占據(jù)主導(dǎo)地位。然而,關(guān)于其核心機(jī)制“注意力”的起源,學(xué)界存在爭(zhēng)議,一些學(xué)者如Jürgen Schmidhuber主張自己更早提出了相關(guān)概念。當(dāng)今AI屆的繁榮,很大程度上要?dú)w功于Transformer模型,2017年的開山之作,把「注意力機(jī)制」(attention)帶入了大眾的視野,此后七年中,在AI模型中占據(jù)了絕對(duì)的主導(dǎo)地位,甚至Attention is All You Need這個(gè)名字都讓之后的論文在起標(biāo)題時(shí)紛紛效仿,逐漸走向狂野。但「正統(tǒng)」注意力機(jī)制其實(shí)來源于2014年Bengio的論文,ACM還在圖靈獎(jiǎng)?lì)C獎(jiǎng)時(shí),為Bengio寫的貢獻(xiàn)為「引入了一種注意力機(jī)制,帶來了機(jī)器翻譯的突破,并形成了深度學(xué)習(xí)順序處理的關(guān)鍵組成部分」。論文鏈接:https://arxiv.org/pdf/1409.0473最近,Andrej Karpathy在社交媒體上公開了與第一作者Dzmitry兩年前的聯(lián)絡(luò)郵件,詳細(xì)敘述了這段發(fā)明注意力的故事,頓時(shí)又掀起網(wǎng)友熱議。不過,LSTM作者Jürgen Schmidhuber卻不認(rèn)可這段故事,而是表明自己才是真正的創(chuàng)造者,1991年就已經(jīng)提出線性復(fù)雜度Transformer,并且在兩年后提出術(shù)語「注意力」,他在2023年12月還發(fā)表過一篇報(bào)告,控訴圖靈獎(jiǎng)三巨頭抄襲自己的研究成果。關(guān)于「Attention起源」的辯論進(jìn)展火熱,仿佛現(xiàn)代AI完全構(gòu)建在注意力機(jī)制的理論之上,關(guān)于Transformer、系統(tǒng)實(shí)現(xiàn)的重要性卻被忽視了。雖然Attention is All You Need論文的核心貢獻(xiàn)是引入Transformer神經(jīng)網(wǎng)絡(luò),刪除了除各種注意力機(jī)制之外的所有模塊,并且基本上只是將其與多層感知機(jī)堆疊在ResNe中,但其實(shí)論文中還是有相當(dāng)多的貢獻(xiàn)和獨(dú)特想法,包括位置編碼、縮放注意力、多頭注意力、極簡(jiǎn)設(shè)計(jì)等等,并且被廣為接受。即便是到了今天,業(yè)內(nèi)普遍使用的模型架構(gòu)仍然大體遵循2017年的原始版本,只是在部分模塊進(jìn)行了簡(jiǎn)單的修改,比如更好的位置編碼方案(RoPE家族)等等。谷歌杰出科學(xué)家、計(jì)算成像、機(jī)器學(xué)習(xí)和視覺領(lǐng)域的專家Peyman Milanfar說的很中肯:我——或者我認(rèn)為任何成像領(lǐng)域的人——都不能合理地宣稱機(jī)器學(xué)習(xí)背景下的注意力概念有任何功勞。但記錄、追溯完整的歷史淵源是有價(jià)值的,如果不從更廣泛的角度來理解「依賴于數(shù)據(jù)的加權(quán)平均運(yùn)算」的重要性和普遍性,那追溯的歷史也是不完整的。最極端的例子莫過于一位網(wǎng)友的評(píng)價(jià),「其實(shí),算術(shù)的出現(xiàn)要比這些論文都早。」「注意力」的起源故事2014年,故事的主角Dzmitry Bahdanau還只是一個(gè)在德國(guó)雅各布大學(xué)(Jakobs University)剛完成碩士一年級(jí)的學(xué)生,之后選擇在Yoshua Bengio(圖靈獎(jiǎng)得主)的實(shí)驗(yàn)室開始實(shí)習(xí)。當(dāng)時(shí)他跟Yoshua表示干什么都行,然后Yoshua便讓他開始與Kyunghyun Cho的團(tuán)隊(duì)合作開發(fā)機(jī)器翻譯模型。當(dāng)時(shí)自然語言處理屆的主流思路是「把單詞序列轉(zhuǎn)為一個(gè)向量」,比如經(jīng)典的word2vec都是當(dāng)時(shí)常用的算法,但Dzmitry卻對(duì)這種想法表示懷疑,不過為了獲得博士的入學(xué)offer,他也只能聽從導(dǎo)師的話,從寫代碼、修復(fù)Bug等最基本的工作入手。逐步熟悉團(tuán)隊(duì)的工作內(nèi)容之后,Yoshua就對(duì)他發(fā)起了攻讀博士學(xué)位的邀請(qǐng),當(dāng)時(shí)AI屆還沒有現(xiàn)在這么卷,這些工作已經(jīng)足以讓這位碩士生開始他的博士生涯了,Dzmitry至今仍表示慶幸、懷念。博士offer穩(wěn)了之后,據(jù)Dzmitry的說法是,可以享受科研樂趣,并充分發(fā)揮自己的創(chuàng)造力了!Dzmitry開始思考如何避免RNN模型中Encoder和Decoder之間的信息瓶頸,第一個(gè)想法是建立一個(gè)帶有兩個(gè)「光標(biāo)」(cursor)的模型:其中一個(gè)由BiRNN編碼,在源序列中移動(dòng);另一個(gè)在目標(biāo)序列中移動(dòng);光標(biāo)軌跡使用動(dòng)態(tài)規(guī)劃進(jìn)行邊際化。但Kyunghyun Cho認(rèn)為這種做法和Alex Graves的RNN Transducer模型沒什么兩樣。讀完Graves的手寫識(shí)別論文后,Dzmitry也認(rèn)可這種方法法對(duì)于機(jī)器翻譯來說不太合適,并且實(shí)習(xí)也只剩5周了,很難在短時(shí)間內(nèi)完成代碼實(shí)現(xiàn),所以就嘗試了更簡(jiǎn)單的方法,讓兩個(gè)光標(biāo)同時(shí)、同步移動(dòng),實(shí)際上相當(dāng)于硬編碼的對(duì)角注意力(hard-coded diagonal attention)。這種方法雖說有點(diǎn)效果,但不夠優(yōu)雅。某一天,Dzmitry受到了英語翻譯練習(xí)中的啟發(fā),人類在翻譯時(shí),目光會(huì)在源序列和目標(biāo)序列之間來回移動(dòng),將軟搜索表示為softmax,然后對(duì)BiRNN狀態(tài)進(jìn)行加權(quán)平均,就能讓Decorder RNN學(xué)會(huì)在源序列中搜索放置光標(biāo)的位置。團(tuán)隊(duì)把這個(gè)架構(gòu)叫做RNNSearch,第一次嘗試效果就很好,只需要1個(gè)GPU就能運(yùn)行。當(dāng)時(shí),谷歌的Ilya(OpenAI前首席科學(xué)家Ilya Sutskever)團(tuán)隊(duì)使用8個(gè)GPU的LSTM模型在某些指標(biāo)上仍然領(lǐng)先,所以團(tuán)隊(duì)趕緊在ArXiV上發(fā)表了一篇論文。后來團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)架構(gòu)的名字其實(shí)并不好,Yoshua在最后的一次修改中確定了「注意力機(jī)制」,直觀地看,讓解碼器來決定源語句中的哪些部分需要受到關(guān)注,減輕了編碼器將源語句中的所有信息編碼為固定長(zhǎng)度向量的負(fù)擔(dān)。通過這種新方法,信息可以分布在整個(gè)標(biāo)注序列中,解碼器可以有選擇地進(jìn)行檢索。一個(gè)半月后,團(tuán)隊(duì)又看了Alex Graves發(fā)表的關(guān)于NMT論文,想法完全相同,但出發(fā)點(diǎn)完全不同。Dzmitry發(fā)明新算法是需求驅(qū)動(dòng)的,Alex那邊或許是出于連接神經(jīng)學(xué)派和符號(hào)學(xué)派的目的;Jason Weston團(tuán)隊(duì)的Memory Networks論文也有類似的機(jī)制。Dzmitry表示沒有預(yù)見到注意力機(jī)制作為表征學(xué)習(xí)的核心算法,其實(shí)可以在更低的層次上使用。所以當(dāng)Transformer論文發(fā)表時(shí),Dzmitry就立刻跟實(shí)驗(yàn)室的同事說,RNN已經(jīng)死了。總之,在蒙特利爾Yoshua的實(shí)驗(yàn)室中「可微且數(shù)據(jù)依賴的加權(quán)平均」(differentiable and data-dependent weighted average operation)的發(fā)明與神經(jīng)圖靈機(jī)、Memory Networks以及90年代(甚至 70 年代)的一些相關(guān)認(rèn)知科學(xué)論文無關(guān),主要來源于Yoshua的領(lǐng)導(dǎo),Kyunghyun Cho在管理由初級(jí)博士生和實(shí)習(xí)生組成的大型機(jī)器翻譯項(xiàng)目方面的出色技能,以及Dzmitry多年來在編程競(jìng)賽中磨練出的創(chuàng)造力和編程技能。即使Dzmitry、Alex Graves和其他人當(dāng)時(shí)沒有從事深度學(xué)習(xí)工作,這個(gè)想法也會(huì)由其他人發(fā)表出來。注意力機(jī)制只是深度學(xué)習(xí)中實(shí)現(xiàn)靈活空間連接的自然方式,只要GPU的運(yùn)算速度足夠快,讓科研人員有動(dòng)力并認(rèn)真對(duì)待深度學(xué)習(xí),就會(huì)自然而然出現(xiàn)。良好的研發(fā)工作可以為基礎(chǔ)技術(shù)的進(jìn)步做出更多貢獻(xiàn),而不是通常意義上、所謂「真正的」人工智能研究的花哨理論。九十年代的「注意力」機(jī)制正如Dzmitry所說,注意力機(jī)制其實(shí)就是模仿大腦的認(rèn)知過程,在更遙遠(yuǎn)的90年代,也是認(rèn)知科學(xué)快速發(fā)展的時(shí)代,類似注意力機(jī)制的模型也早有研究。最早的「可微加權(quán)平均操作」甚至并不來源于機(jī)器學(xué)習(xí)領(lǐng)域,而是圖像處理中常用的「濾波器」(filter)。比如最著名的是1998年Tomasi和Manduchi的雙邊濾波器,以及1997年Smith和Brady提出的SUSAN濾波器;后面還出現(xiàn)過許多變體形式,包括2005年的Buades、Coll和Morel提出的非局部均值,以及2007年P(guān)eyman Milanfar提出的更通用的核回歸濾波器。論文鏈接:https://ieeexplore.ieee.org/abstract/document/4060955阿卜杜拉科技大學(xué) (KAUST) 人工智能研究所所長(zhǎng)、瑞士人工智能實(shí)驗(yàn)室IDSIA科學(xué)主任、LSTM作者、現(xiàn)代人工智能之父Jürgen Schmidhube也參與到這場(chǎng)大戰(zhàn)之中。2023年12月,Jürgen就曾發(fā)布過一篇報(bào)告,控訴三位圖靈獎(jiǎng)得主Bengio, Hinton和LeCun各有相關(guān)工作參考于他之前的工作,但并沒有標(biāo)注引用,「抄襲」罪狀中,Bengio七條、Hinton六條、LeCun四條。報(bào)告鏈接:https://people.idsia.ch/~juergen/ai-priority-disputes.htmlJürgen在報(bào)告中指出,1991年3月,他就已經(jīng)提出了所謂的具有「線性自注意力」的非歸一化線性Transformer(unnormalized linear Transformer with linearized self-attention),只不過當(dāng)時(shí)的名字叫做「快速權(quán)重編程器」(Fast Weight Programmers)和「快速權(quán)重控制器」(Fast Weight Controllers),類似傳統(tǒng)計(jì)算機(jī)將存儲(chǔ)和控制分開的方式,以端到端可微分、自適應(yīng)、完全神經(jīng)的方法,只不過當(dāng)時(shí)Key/Value被稱為From/To雖然名字不一樣,但兩個(gè)模型背后的數(shù)學(xué)原理大致相同。1991年發(fā)表的模型原理類似于:為了回答接收到的query,通過梯度下降來學(xué)習(xí)生成key和value的模式,對(duì)自身的某些部分進(jìn)行重新編程,從而根據(jù)上下文將注意力引導(dǎo)到重要的事情上;現(xiàn)代Transformer也采用了同樣的原理。2021年,Jürgen在ICML上發(fā)表了一篇論文,進(jìn)一步證明了二者的等價(jià)性。論文鏈接:https://arxiv.org/pdf/2102.11174在1991年,當(dāng)時(shí)的計(jì)算成本比現(xiàn)在高出數(shù)百萬倍,所以計(jì)算效率很重要,Transformer的計(jì)算復(fù)雜度為二次方,所以無法擴(kuò)大數(shù)據(jù)處理規(guī)模,而快速權(quán)重編程器的計(jì)算復(fù)雜度只有線性,據(jù)Jürgen所說,當(dāng)年幾乎沒有期刊會(huì)接受二次縮放的神經(jīng)網(wǎng)絡(luò)。1993年,Jürgen對(duì)線性Transformer進(jìn)行循環(huán)擴(kuò)展時(shí),使用了術(shù)語「注意力」。論文鏈接:https://sferics.idsia.ch/pub/juergen/ratio.pdf正如文章開頭所說,Bengio團(tuán)隊(duì)因注意力機(jī)制獲圖靈獎(jiǎng),之后的工作都以Bengio 2014年的論文作為注意力機(jī)制起源。Jürgen還表示,在2010年代,ACM所謂的關(guān)鍵「機(jī)器翻譯的突破」也不是Bengio的功勞,而是LSTM的功勞,在2016年極大地改進(jìn)了Google 翻譯,甚至直到 2017 年,F(xiàn)acebook用戶每周還要進(jìn)行300億次基于LSTM的翻譯請(qǐng)求。總之,技術(shù)起源的是是非非很難辯個(gè)清楚,拿出小板凳,理性吃瓜!參考資料:https://x.com/SchmidhuberAI/status/1864701357107634390

粵公網(wǎng)安備 44011502001135號(hào)