AIGC動態歡迎閱讀
原標題:八問八答搞懂Transformer內部運作原理
關鍵字:中間層,順序,模型,研究者,表征
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部七年前,論文《Attention is all you need》提出了 transformer 架構,顛覆了整個深度學習領域。
如今,各家大模型都以 transformer 架構為基礎,但 transformer 內部運作原理,仍是一個未解之謎。
去年,transformer 論文作者之一 Llion Jones 宣布創立人工智能公司 Sakana AI。近期,Sakana AI 發表了一篇題為《Transformer Layers as Painters》的論文,探究了預訓練 transformer 中的信息流,并針對僅解碼器和僅編碼器凍結 transformer 模型進行了一系列實驗。請注意,該研究沒有對預訓練模型進行任何類型的微調。論文地址:https://arxiv.org/pdf/2407.09298v1
該研究認為 transformer 的內部機制(特別是中間層)可以類比畫家作畫流水線來理解。
作畫流水線通常是將畫布(輸入)傳遞給一系列畫家。有些畫家擅長畫鳥類,而另一些畫家則擅長畫輪子。每個畫家從其下一級畫家那里收到畫布,然后其決定是否給畫作
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...