AIGC動態歡迎閱讀
原標題:簡化版Transformer來了,網友:年度論文
文章來源:機器之心
內容字數:8398字
內容摘要:機器之心報道機器之心編輯部從大模型的根源開始優化。Transformer 架構可以說是近期深度學習領域許多成功案例背后的主力軍。構建深度 Transformer 架構的一種簡單方法是將多個相同的 Transformer 「塊」(block)依次堆疊起來,但每個「塊」都比較復雜,由許多不同的組件組成,需要以特定的排列組合才能實現良好的性能。自從 2017 年 Transformer 架構誕生以來,研究者們基于其推出了大量衍生研究,但幾乎沒有改動過 Transformer 「塊」。那么問題來了,標準 Transformer 塊是否可以簡化?在最近的一篇論文中,來自 ETH Zurich 的研究者討論了如何在不影響收斂特性和下游任務性能的情況下簡化 LLM 所必需的標準 Transformer 塊?;谛盘杺鞑ダ碚摵徒涷炞C據,他們發現可以移除一些部分,比如殘差連接、歸一化層(LayerNorm)…
原文鏈接:點此閱讀原文:簡化版Transformer來了,網友:年度論文
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...