<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ViT作者飛機上也要讀的改進版Transformer論文,花2個小時詳細批注解讀分享出來

        AIGC動態9個月前發布 量子位
        354 0 0

        質疑微軟,理解微軟

        ViT作者飛機上也要讀的改進版Transformer論文,花2個小時詳細批注解讀分享出來

        原標題:ViT作者飛機上也要讀的改進版Transformer論文,花2個小時詳細批注解讀分享出來
        文章來源:量子位
        內容字數:3875字

        Lucas Beyer點評微軟Differencial Transformer論文:改進Transformer架構的“簡單而優雅”嘗試

        近日,OpenAI研究員Lucas Beyer在其個人社交媒體上發表長文,對一篇來自微軟的改進Transformer架構的論文(簡稱DiffTransformer)進行了深入分析。這篇論文提出了一種名為“Differencial Transformer”的模型,旨在解決Transformer模型信噪比低的問題,其核心思想類似于差分放大電路或降噪耳機,利用兩個注意力頭的差值來濾除共模噪聲。

        1. 論文核心思想及Beyer的初步質疑

        論文的核心創新點可以用一句話概括:將兩個注意力頭配對,然后執行(softmax(Q1K1) – λ*softmax(Q2K2)) V,其中λ是一個可學習的標量。 Beyer最初對該方法持保留態度,認為普通的Transformer的多個注意力頭應該能夠自行學習到這種機制,無需額外設計。

        2. Beyer的觀點轉變及論文細節分析

        然而,在與同行交流并重新閱讀論文后,Beyer改變了看法。他贊揚了論文中實驗的公平性和謹慎性。但他同時指出了一些論文中容易被忽視的細節,例如:DiffAttn實際上并沒有對差值重新歸一化,λ的計算較為復雜,且缺乏對λ參數的深入分析,以及實驗中基線模型選擇的合理性存疑等。 Beyer建議論文作者提供更多關于注意力分布、熵、以及λ參數和層歸一化影響的圖表數據,以增強論文的說服力。

        3. 實驗結果及Beyer的質疑

        論文中大量的實驗結果顯示,Diff Transformer在某些方面表現優于基線模型StableLM-3B。然而,Beyer對實驗結果提出了兩點質疑:首先,縮放曲線存在明顯的斷裂,且使用了不同的學習率;其次,訓練數據量相對較小(100億token)。他認為這些因素可能影響了實驗結果的可靠性,并建議提供基于計算量或實際時間的縮放曲線。

        4. Diff Transformer的優勢及不足

        盡管存在一些質疑,Beyer仍然肯定了Diff Transformer在長文本評測和對輸入樣本順序的魯棒性方面的優勢。特別是在上下文學習的魯棒性實驗中,Diff Transformer表現出更強的穩定性。但同時,Diff Transformer的推理速度略慢于基線模型(慢5-10%)。

        5. 總結與展望

        總而言之,Beyer對Diff Transformer的評價是積極的,他認為這項工作展現了比單純的“兩個注意力頭相減”更多的潛力,是一個有前景的研究方向。但他同時也強調,需要進一步的研究來驗證其在其他任務中的泛化能力和復現性。

        6. 關于作者Lucas Beyer

        Lucas Beyer是OpenAI的研究員,曾是谷歌的研究員,參與了Vision Transformer的研發。他經常對最新的AI研究發表評論,是一位值得關注的學者。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费人成在线观看网站| 四虎影视久久久免费| 日本免费中文字幕| 亚洲精品色婷婷在线影院| 一级黄色免费毛片| 亚洲色偷偷综合亚洲AVYP| 一级有奶水毛片免费看| 永久亚洲成a人片777777| a视频在线观看免费| 亚洲AV日韩AV高潮无码专区| 日韩电影免费观看| 亚洲网址在线观看| 久久久久国产精品免费免费搜索 | 亚洲AV无码国产精品色午友在线| 精品国产免费人成网站| 亚洲日韩精品无码一区二区三区 | 亚洲图片中文字幕| 一二三四在线观看免费高清中文在线观看 | 日本一道本高清免费| 国产亚洲人成在线播放| 亚洲色欲久久久久综合网| 国产精品偷伦视频观看免费| 亚洲视频国产视频| 永久免费毛片手机版在线看| 人妻18毛片a级毛片免费看| 国产亚洲精品va在线| 日本免费xxxx色视频| 国产精品亚洲专区一区| 日本亚洲国产一区二区三区| 日韩免费人妻AV无码专区蜜桃| 久久精品国产亚洲AV久| 亚洲熟伦熟女新五十路熟妇 | 亚洲国产精品成人AV在线| 亚洲精品成a人在线观看| 日韩免费无码一区二区三区| 蜜臀亚洲AV无码精品国产午夜.| 国产亚洲成人在线播放va| 久视频精品免费观看99| 特级毛片全部免费播放| 久久久久久亚洲Av无码精品专口| 免费黄色一级毛片|