ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文，花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

質(zhì)疑微軟，理解微軟

原標(biāo)題：ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文，花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：3875字

Lucas Beyer點(diǎn)評(píng)微軟Differencial Transformer論文：改進(jìn)Transformer架構(gòu)的“簡(jiǎn)單而優(yōu)雅”嘗試

近日，OpenAI研究員Lucas Beyer在其個(gè)人社交媒體上發(fā)表長(zhǎng)文，對(duì)一篇來(lái)自微軟的改進(jìn)Transformer架構(gòu)的論文（簡(jiǎn)稱(chēng)DiffTransformer）進(jìn)行了深入分析。這篇論文提出了一種名為“Differencial Transformer”的模型，旨在解決Transformer模型信噪比低的問(wèn)題，其核心思想類(lèi)似于差分放大電路或降噪耳機(jī)，利用兩個(gè)注意力頭的差值來(lái)濾除共模噪聲。

1. 論文核心思想及Beyer的初步質(zhì)疑

論文的核心創(chuàng)新點(diǎn)可以用一句話(huà)概括：將兩個(gè)注意力頭配對(duì)，然后執(zhí)行(softmax(Q1K1) – λ*softmax(Q2K2)) V，其中λ是一個(gè)可學(xué)習(xí)的標(biāo)量。 Beyer最初對(duì)該方法持保留態(tài)度，認(rèn)為普通的Transformer的多個(gè)注意力頭應(yīng)該能夠自行學(xué)習(xí)到這種機(jī)制，無(wú)需額外設(shè)計(jì)。

2. Beyer的觀點(diǎn)轉(zhuǎn)變及論文細(xì)節(jié)分析

然而，在與同行交流并重新閱讀論文后，Beyer改變了看法。他贊揚(yáng)了論文中實(shí)驗(yàn)的公平性和謹(jǐn)慎性。但他同時(shí)指出了一些論文中容易被忽視的細(xì)節(jié)，例如：DiffAttn實(shí)際上并沒(méi)有對(duì)差值重新歸一化，λ的計(jì)算較為復(fù)雜，且缺乏對(duì)λ參數(shù)的深入分析，以及實(shí)驗(yàn)中基線(xiàn)模型選擇的合理性存疑等。 Beyer建議論文作者提供更多關(guān)于注意力分布、熵、以及λ參數(shù)和層歸一化影響的圖表數(shù)據(jù)，以增強(qiáng)論文的說(shuō)服力。

3. 實(shí)驗(yàn)結(jié)果及Beyer的質(zhì)疑

論文中大量的實(shí)驗(yàn)結(jié)果顯示，Diff Transformer在某些方面表現(xiàn)優(yōu)于基線(xiàn)模型StableLM-3B。然而，Beyer對(duì)實(shí)驗(yàn)結(jié)果提出了兩點(diǎn)質(zhì)疑：首先，縮放曲線(xiàn)存在明顯的斷裂，且使用了不同的學(xué)習(xí)率；其次，訓(xùn)練數(shù)據(jù)量相對(duì)較?。?00億token）。他認(rèn)為這些因素可能影響了實(shí)驗(yàn)結(jié)果的可靠性，并建議提供基于計(jì)算量或?qū)嶋H時(shí)間的縮放曲線(xiàn)。

4. Diff Transformer的優(yōu)勢(shì)及不足

盡管存在一些質(zhì)疑，Beyer仍然肯定了Diff Transformer在長(zhǎng)文本評(píng)測(cè)和對(duì)輸入樣本順序的魯棒性方面的優(yōu)勢(shì)。特別是在上下文學(xué)習(xí)的魯棒性實(shí)驗(yàn)中，Diff Transformer表現(xiàn)出更強(qiáng)的穩(wěn)定性。但同時(shí)，Diff Transformer的推理速度略慢于基線(xiàn)模型(慢5-10%)。

5. 總結(jié)與展望

總而言之，Beyer對(duì)Diff Transformer的評(píng)價(jià)是積極的，他認(rèn)為這項(xiàng)工作展現(xiàn)了比單純的“兩個(gè)注意力頭相減”更多的潛力，是一個(gè)有前景的研究方向。但他同時(shí)也強(qiáng)調(diào)，需要進(jìn)一步的研究來(lái)驗(yàn)證其在其他任務(wù)中的泛化能力和復(fù)現(xiàn)性。

6. 關(guān)于作者Lucas Beyer

Lucas Beyer是OpenAI的研究員，曾是谷歌的研究員，參與了Vision Transformer的研發(fā)。他經(jīng)常對(duì)最新的AI研究發(fā)表評(píng)論，是一位值得關(guān)注的學(xué)者。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 大模型訓(xùn)練 # 模型壓縮 # 注意力機(jī)制優(yōu)化 # 視覺(jué)Transformer改進(jìn)# 高效Transformer

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文，花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

質(zhì)疑微軟，理解微軟

Lucas Beyer點(diǎn)評(píng)微軟Differencial Transformer論文：改進(jìn)Transformer架構(gòu)的“簡(jiǎn)單而優(yōu)雅”嘗試

1. 論文核心思想及Beyer的初步質(zhì)疑

2. Beyer的觀點(diǎn)轉(zhuǎn)變及論文細(xì)節(jié)分析

3. 實(shí)驗(yàn)結(jié)果及Beyer的質(zhì)疑

4. Diff Transformer的優(yōu)勢(shì)及不足

5. 總結(jié)與展望

6. 關(guān)于作者Lucas Beyer

聯(lián)系作者

2024年AI編程有多強(qiáng)？谷歌工程主管揭秘殘酷真相

7 億意外之財(cái)砸中 150 個(gè)打工人？英偉達(dá)花重金收購(gòu) AI 平臺(tái)，到手就大方開(kāi)源了！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文，花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

質(zhì)疑微軟，理解微軟

Lucas Beyer點(diǎn)評(píng)微軟Differencial Transformer論文：改進(jìn)Transformer架構(gòu)的“簡(jiǎn)單而優(yōu)雅”嘗試

1. 論文核心思想及Beyer的初步質(zhì)疑

2. Beyer的觀點(diǎn)轉(zhuǎn)變及論文細(xì)節(jié)分析

3. 實(shí)驗(yàn)結(jié)果及Beyer的質(zhì)疑

4. Diff Transformer的優(yōu)勢(shì)及不足

5. 總結(jié)與展望

6. 關(guān)于作者Lucas Beyer

聯(lián)系作者

2024年AI編程有多強(qiáng)？谷歌工程主管揭秘殘酷真相

7 億意外之財(cái)砸中 150 個(gè)打工人？英偉達(dá)花重金收購(gòu) AI 平臺(tái)，到手就大方開(kāi)源了！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文，花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

質(zhì)疑微軟，理解微軟

2024年AI編程有多強(qiáng)？谷歌工程主管揭秘殘酷真相

7 億意外之財(cái)砸中 150 個(gè)打工人？英偉達(dá)花重金收購(gòu) AI 平臺(tái)，到手就大方開(kāi)源了！