ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文,花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)
質(zhì)疑微軟,理解微軟
原標(biāo)題:ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文,花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3875字
Lucas Beyer點(diǎn)評(píng)微軟Differencial Transformer論文:改進(jìn)Transformer架構(gòu)的“簡(jiǎn)單而優(yōu)雅”嘗試
近日,OpenAI研究員Lucas Beyer在其個(gè)人社交媒體上發(fā)表長(zhǎng)文,對(duì)一篇來(lái)自微軟的改進(jìn)Transformer架構(gòu)的論文(簡(jiǎn)稱(chēng)DiffTransformer)進(jìn)行了深入分析。這篇論文提出了一種名為“Differencial Transformer”的模型,旨在解決Transformer模型信噪比低的問(wèn)題,其核心思想類(lèi)似于差分放大電路或降噪耳機(jī),利用兩個(gè)注意力頭的差值來(lái)濾除共模噪聲。
1. 論文核心思想及Beyer的初步質(zhì)疑
論文的核心創(chuàng)新點(diǎn)可以用一句話(huà)概括:將兩個(gè)注意力頭配對(duì),然后執(zhí)行(softmax(Q1K1) – λ*softmax(Q2K2)) V,其中λ是一個(gè)可學(xué)習(xí)的標(biāo)量。 Beyer最初對(duì)該方法持保留態(tài)度,認(rèn)為普通的Transformer的多個(gè)注意力頭應(yīng)該能夠自行學(xué)習(xí)到這種機(jī)制,無(wú)需額外設(shè)計(jì)。
2. Beyer的觀點(diǎn)轉(zhuǎn)變及論文細(xì)節(jié)分析
然而,在與同行交流并重新閱讀論文后,Beyer改變了看法。他贊揚(yáng)了論文中實(shí)驗(yàn)的公平性和謹(jǐn)慎性。但他同時(shí)指出了一些論文中容易被忽視的細(xì)節(jié),例如:DiffAttn實(shí)際上并沒(méi)有對(duì)差值重新歸一化,λ的計(jì)算較為復(fù)雜,且缺乏對(duì)λ參數(shù)的深入分析,以及實(shí)驗(yàn)中基線(xiàn)模型選擇的合理性存疑等。 Beyer建議論文作者提供更多關(guān)于注意力分布、熵、以及λ參數(shù)和層歸一化影響的圖表數(shù)據(jù),以增強(qiáng)論文的說(shuō)服力。
3. 實(shí)驗(yàn)結(jié)果及Beyer的質(zhì)疑
論文中大量的實(shí)驗(yàn)結(jié)果顯示,Diff Transformer在某些方面表現(xiàn)優(yōu)于基線(xiàn)模型StableLM-3B。然而,Beyer對(duì)實(shí)驗(yàn)結(jié)果提出了兩點(diǎn)質(zhì)疑:首先,縮放曲線(xiàn)存在明顯的斷裂,且使用了不同的學(xué)習(xí)率;其次,訓(xùn)練數(shù)據(jù)量相對(duì)較?。?00億token)。他認(rèn)為這些因素可能影響了實(shí)驗(yàn)結(jié)果的可靠性,并建議提供基于計(jì)算量或?qū)嶋H時(shí)間的縮放曲線(xiàn)。
4. Diff Transformer的優(yōu)勢(shì)及不足
盡管存在一些質(zhì)疑,Beyer仍然肯定了Diff Transformer在長(zhǎng)文本評(píng)測(cè)和對(duì)輸入樣本順序的魯棒性方面的優(yōu)勢(shì)。特別是在上下文學(xué)習(xí)的魯棒性實(shí)驗(yàn)中,Diff Transformer表現(xiàn)出更強(qiáng)的穩(wěn)定性。但同時(shí),Diff Transformer的推理速度略慢于基線(xiàn)模型(慢5-10%)。
5. 總結(jié)與展望
總而言之,Beyer對(duì)Diff Transformer的評(píng)價(jià)是積極的,他認(rèn)為這項(xiàng)工作展現(xiàn)了比單純的“兩個(gè)注意力頭相減”更多的潛力,是一個(gè)有前景的研究方向。但他同時(shí)也強(qiáng)調(diào),需要進(jìn)一步的研究來(lái)驗(yàn)證其在其他任務(wù)中的泛化能力和復(fù)現(xiàn)性。
6. 關(guān)于作者Lucas Beyer
Lucas Beyer是OpenAI的研究員,曾是谷歌的研究員,參與了Vision Transformer的研發(fā)。他經(jīng)常對(duì)最新的AI研究發(fā)表評(píng)論,是一位值得關(guān)注的學(xué)者。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破