<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文,花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

        AIGC動(dòng)態(tài)4個(gè)月前發(fā)布 量子位
        345 0 0

        質(zhì)疑微軟,理解微軟

        ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文,花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)

        原標(biāo)題:ViT作者飛機(jī)上也要讀的改進(jìn)版Transformer論文,花2個(gè)小時(shí)詳細(xì)批注解讀分享出來(lái)
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):3875字

        Lucas Beyer點(diǎn)評(píng)微軟Differencial Transformer論文:改進(jìn)Transformer架構(gòu)的“簡(jiǎn)單而優(yōu)雅”嘗試

        近日,OpenAI研究員Lucas Beyer在其個(gè)人社交媒體上發(fā)表長(zhǎng)文,對(duì)一篇來(lái)自微軟的改進(jìn)Transformer架構(gòu)的論文(簡(jiǎn)稱(chēng)DiffTransformer)進(jìn)行了深入分析。這篇論文提出了一種名為“Differencial Transformer”的模型,旨在解決Transformer模型信噪比低的問(wèn)題,其核心思想類(lèi)似于差分放大電路或降噪耳機(jī),利用兩個(gè)注意力頭的差值來(lái)濾除共模噪聲。

        1. 論文核心思想及Beyer的初步質(zhì)疑

        論文的核心創(chuàng)新點(diǎn)可以用一句話(huà)概括:將兩個(gè)注意力頭配對(duì),然后執(zhí)行(softmax(Q1K1) – λ*softmax(Q2K2)) V,其中λ是一個(gè)可學(xué)習(xí)的標(biāo)量。 Beyer最初對(duì)該方法持保留態(tài)度,認(rèn)為普通的Transformer的多個(gè)注意力頭應(yīng)該能夠自行學(xué)習(xí)到這種機(jī)制,無(wú)需額外設(shè)計(jì)。

        2. Beyer的觀點(diǎn)轉(zhuǎn)變及論文細(xì)節(jié)分析

        然而,在與同行交流并重新閱讀論文后,Beyer改變了看法。他贊揚(yáng)了論文中實(shí)驗(yàn)的公平性和謹(jǐn)慎性。但他同時(shí)指出了一些論文中容易被忽視的細(xì)節(jié),例如:DiffAttn實(shí)際上并沒(méi)有對(duì)差值重新歸一化,λ的計(jì)算較為復(fù)雜,且缺乏對(duì)λ參數(shù)的深入分析,以及實(shí)驗(yàn)中基線(xiàn)模型選擇的合理性存疑等。 Beyer建議論文作者提供更多關(guān)于注意力分布、熵、以及λ參數(shù)和層歸一化影響的圖表數(shù)據(jù),以增強(qiáng)論文的說(shuō)服力。

        3. 實(shí)驗(yàn)結(jié)果及Beyer的質(zhì)疑

        論文中大量的實(shí)驗(yàn)結(jié)果顯示,Diff Transformer在某些方面表現(xiàn)優(yōu)于基線(xiàn)模型StableLM-3B。然而,Beyer對(duì)實(shí)驗(yàn)結(jié)果提出了兩點(diǎn)質(zhì)疑:首先,縮放曲線(xiàn)存在明顯的斷裂,且使用了不同的學(xué)習(xí)率;其次,訓(xùn)練數(shù)據(jù)量相對(duì)較?。?00億token)。他認(rèn)為這些因素可能影響了實(shí)驗(yàn)結(jié)果的可靠性,并建議提供基于計(jì)算量或?qū)嶋H時(shí)間的縮放曲線(xiàn)。

        4. Diff Transformer的優(yōu)勢(shì)及不足

        盡管存在一些質(zhì)疑,Beyer仍然肯定了Diff Transformer在長(zhǎng)文本評(píng)測(cè)和對(duì)輸入樣本順序的魯棒性方面的優(yōu)勢(shì)。特別是在上下文學(xué)習(xí)的魯棒性實(shí)驗(yàn)中,Diff Transformer表現(xiàn)出更強(qiáng)的穩(wěn)定性。但同時(shí),Diff Transformer的推理速度略慢于基線(xiàn)模型(慢5-10%)。

        5. 總結(jié)與展望

        總而言之,Beyer對(duì)Diff Transformer的評(píng)價(jià)是積極的,他認(rèn)為這項(xiàng)工作展現(xiàn)了比單純的“兩個(gè)注意力頭相減”更多的潛力,是一個(gè)有前景的研究方向。但他同時(shí)也強(qiáng)調(diào),需要進(jìn)一步的研究來(lái)驗(yàn)證其在其他任務(wù)中的泛化能力和復(fù)現(xiàn)性。

        6. 關(guān)于作者Lucas Beyer

        Lucas Beyer是OpenAI的研究員,曾是谷歌的研究員,參與了Vision Transformer的研發(fā)。他經(jīng)常對(duì)最新的AI研究發(fā)表評(píng)論,是一位值得關(guān)注的學(xué)者。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 好男人视频在线观看免费看片| 特a级免费高清黄色片| 亚洲成人黄色在线| 在线观看亚洲人成网站| 亚洲国产精品人久久| 中文字幕亚洲综合久久2| 亚洲毛片一级带毛片基地| 久久久久亚洲AV无码网站| 久久亚洲熟女cc98cm| 亚洲网站视频在线观看| 亚洲不卡中文字幕| 亚洲人成网国产最新在线| 久久综合久久综合亚洲| 亚洲中文字幕无码久久| 亚洲AV无码AV吞精久久| 欧美色欧美亚洲另类二区| 一级黄色毛片免费看| 中国一级毛片免费看视频| 国产色爽免费无码视频| 无码精品人妻一区二区三区免费看| 可以免费观看的毛片| 亚洲免费人成视频观看| 久久不见久久见中文字幕免费| 免费毛片在线视频| 久久久久亚洲精品天堂久久久久久 | 白白色免费在线视频| 国产成人无码区免费A∨视频网站 国产成人涩涩涩视频在线观看免费 | 日本特黄特色aa大片免费| 免费二级毛片免费完整视频| 久久久久亚洲AV成人网| 亚洲一区影音先锋色资源| 亚洲人成网男女大片在线播放| 亚洲av无码专区青青草原| 国产精品福利片免费看| 久久久精品免费视频| 野花高清在线观看免费完整版中文 | 亚洲AV无码国产剧情| 成人无码区免费A∨直播| 久久久久av无码免费网| 免费国产成人午夜私人影视 | 亚洲Aⅴ无码一区二区二三区软件 亚洲AⅤ视频一区二区三区 |