無比喻,不論文!用「畫家流水線」的方式理解Transformer中間層
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:無比喻,不論文!用「畫家流水線」的方式理解Transformer中間層
關(guān)鍵字:中間層,模型,畫家,順序,基準(zhǔn)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:?jiǎn)虠?庸庸
【新智元導(dǎo)讀】Transformer架構(gòu)層層堆疊,包含十幾億甚至幾十億個(gè)參數(shù),這些層到底是如何工作的?當(dāng)一個(gè)新奇的比喻——「畫家流水線」,被用于類比并理解Transformer架構(gòu)的中間層,情況突然變得明朗起來,并引出了一些有趣的發(fā)現(xiàn)。盡管Transformer架構(gòu)已經(jīng)主宰了當(dāng)今幾乎所有的大模型,但我們依舊對(duì)它的工作原理知之甚少。
而且,基于Transformer的預(yù)訓(xùn)練LLM動(dòng)輒有幾十億參數(shù),很難直接對(duì)模型進(jìn)行可解釋性分析。
同時(shí),模型中間層由N個(gè)相同的塊堆疊在一起,它們之間唯一的區(qū)別只有層次位置和權(quán)重值,這就讓理解中間層更加困難。
然而,最近發(fā)表的一篇論文卻給出了一個(gè)十分通俗易懂的比喻——「畫家流水線」。
論文地址:https://arxiv.org/pdf/2407.09298v1
有著「東京AI夢(mèng)之隊(duì)」之稱的Sakana AI,聯(lián)合IBM前AI負(fù)責(zé)人Satya Nitta創(chuàng)始的Emergence AI,兩個(gè)團(tuán)隊(duì)的研究人員用一種新的「打開方式」來解釋Transformer架構(gòu)的中間層。
值得一提的是,這篇論文作者之一Llion Jones同樣也是當(dāng)年
原文鏈接:無比喻,不論文!用「畫家流水線」的方式理解Transformer中間層
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介: