八問八答搞懂Transformer內(nèi)部運作原理
AIGC動態(tài)歡迎閱讀
原標(biāo)題:八問八答搞懂Transformer內(nèi)部運作原理
關(guān)鍵字:中間層,順序,模型,研究者,表征
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部七年前,論文《Attention is all you need》提出了 transformer 架構(gòu),顛覆了整個深度學(xué)習(xí)領(lǐng)域。
如今,各家大模型都以 transformer 架構(gòu)為基礎(chǔ),但 transformer 內(nèi)部運作原理,仍是一個未解之謎。
去年,transformer 論文作者之一 Llion Jones 宣布創(chuàng)立人工智能公司 Sakana AI。近期,Sakana AI 發(fā)表了一篇題為《Transformer Layers as Painters》的論文,探究了預(yù)訓(xùn)練 transformer 中的信息流,并針對僅解碼器和僅編碼器凍結(jié) transformer 模型進(jìn)行了一系列實驗。請注意,該研究沒有對預(yù)訓(xùn)練模型進(jìn)行任何類型的微調(diào)。論文地址:https://arxiv.org/pdf/2407.09298v1
該研究認(rèn)為 transformer 的內(nèi)部機制(特別是中間層)可以類比畫家作畫流水線來理解。
作畫流水線通常是將畫布(輸入)傳遞給一系列畫家。有些畫家擅長畫鳥類,而另一些畫家則擅長畫輪子。每個畫家從其下一級畫家那里收到畫布,然后其決定是否給畫作
原文鏈接:八問八答搞懂Transformer內(nèi)部運作原理
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...