打亂/跳過Transformer層會(huì)怎樣?最新研究揭開其信息流動(dòng)機(jī)制,一口氣解答8大問題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:打亂/跳過Transformer層會(huì)怎樣?最新研究揭開其信息流動(dòng)機(jī)制,一口氣解答8大問題
關(guān)鍵字:中間層,順序,模型,表征,研究人員
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAITransformer中的信息流動(dòng)機(jī)制,被最新研究揭開了:
所有層都是必要的嗎?中間層在做同樣的事嗎?層的順序重要嗎?
如果跳過一些層,比如第4層輸出接到第6層會(huì)怎樣。隨亂層的順序,比如4-6-5-7又會(huì)怎樣。
最近一項(xiàng)名為“Transformer Layers as Painters”的研究火了,由來(lái)自AI初創(chuàng)公司Sakana AI、Emergence AI的研究團(tuán)隊(duì)完成。
他們從Transformer內(nèi)部工作原理出發(fā),經(jīng)過一系列實(shí)驗(yàn)對(duì)以上問題得出了結(jié)論。團(tuán)隊(duì)表示深入理解這些原理不僅能提高現(xiàn)有模型利用效率,還能幫助改進(jìn)架構(gòu)開發(fā)新的變體。
谷歌DeepMind研究員、ViT作者Lucas Beyer看過后直接點(diǎn)了個(gè)贊:
很棒的總結(jié)!盡管一些實(shí)驗(yàn)在之前的研究中已經(jīng)被展示過了,但我喜歡你添加的新細(xì)節(jié),特別是強(qiáng)調(diào)了“推理”類任務(wù)比其他任務(wù)受影響更大!
還有不少學(xué)者、工程師也表示強(qiáng)烈推薦。
敢打賭,其中一些見解最終將會(huì)用于改進(jìn)Transformer。
其中的實(shí)驗(yàn)再次證實(shí)了:復(fù)制層對(duì)創(chuàng)造性任務(wù)有幫助,但對(duì)推理任務(wù)通常無(wú)效;改變層的順序行不通;
原文鏈接:打亂/跳過Transformer層會(huì)怎樣?最新研究揭開其信息流動(dòng)機(jī)制,一口氣解答8大問題
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: