質疑微軟,理解微軟
原標題:ViT作者飛機上也要讀的改進版Transformer論文,花2個小時詳細批注解讀分享出來
文章來源:量子位
內容字數:3875字
Lucas Beyer點評微軟Differencial Transformer論文:改進Transformer架構的“簡單而優雅”嘗試
近日,OpenAI研究員Lucas Beyer在其個人社交媒體上發表長文,對一篇來自微軟的改進Transformer架構的論文(簡稱DiffTransformer)進行了深入分析。這篇論文提出了一種名為“Differencial Transformer”的模型,旨在解決Transformer模型信噪比低的問題,其核心思想類似于差分放大電路或降噪耳機,利用兩個注意力頭的差值來濾除共模噪聲。
1. 論文核心思想及Beyer的初步質疑
論文的核心創新點可以用一句話概括:將兩個注意力頭配對,然后執行(softmax(Q1K1) – λ*softmax(Q2K2)) V,其中λ是一個可學習的標量。 Beyer最初對該方法持保留態度,認為普通的Transformer的多個注意力頭應該能夠自行學習到這種機制,無需額外設計。
2. Beyer的觀點轉變及論文細節分析
然而,在與同行交流并重新閱讀論文后,Beyer改變了看法。他贊揚了論文中實驗的公平性和謹慎性。但他同時指出了一些論文中容易被忽視的細節,例如:DiffAttn實際上并沒有對差值重新歸一化,λ的計算較為復雜,且缺乏對λ參數的深入分析,以及實驗中基線模型選擇的合理性存疑等。 Beyer建議論文作者提供更多關于注意力分布、熵、以及λ參數和層歸一化影響的圖表數據,以增強論文的說服力。
3. 實驗結果及Beyer的質疑
論文中大量的實驗結果顯示,Diff Transformer在某些方面表現優于基線模型StableLM-3B。然而,Beyer對實驗結果提出了兩點質疑:首先,縮放曲線存在明顯的斷裂,且使用了不同的學習率;其次,訓練數據量相對較小(100億token)。他認為這些因素可能影響了實驗結果的可靠性,并建議提供基于計算量或實際時間的縮放曲線。
4. Diff Transformer的優勢及不足
盡管存在一些質疑,Beyer仍然肯定了Diff Transformer在長文本評測和對輸入樣本順序的魯棒性方面的優勢。特別是在上下文學習的魯棒性實驗中,Diff Transformer表現出更強的穩定性。但同時,Diff Transformer的推理速度略慢于基線模型(慢5-10%)。
5. 總結與展望
總而言之,Beyer對Diff Transformer的評價是積極的,他認為這項工作展現了比單純的“兩個注意力頭相減”更多的潛力,是一個有前景的研究方向。但他同時也強調,需要進一步的研究來驗證其在其他任務中的泛化能力和復現性。
6. 關于作者Lucas Beyer
Lucas Beyer是OpenAI的研究員,曾是谷歌的研究員,參與了Vision Transformer的研發。他經常對最新的AI研究發表評論,是一位值得關注的學者。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
相關文章
