AIGC動態歡迎閱讀
原標題:Jurgen、曼寧等大佬新作:MoE重塑6年前的Universal Transformer,高效升級
關鍵字:研究者,專家,模型,參數,注意力
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、蛋醬7 年前,谷歌在論文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年,谷歌又發布了 Universal Transformer(UT)。它的核心特征是通過跨層共享參數來實現深度循環,從而重新引入了 RNN 具有的循環表達能力。層共享使得 UT 在邏輯推理任務等組合問題上的表現優于 Transformer,同時還在小規模語言建模和翻譯任務上得到改進。
UT 已被證明具有更好的組合泛化特性,能夠在無監督的情況下解構結構化問題并泛化到更長的序列。因此與 Transformer 相比,UT 是一種具有卓越泛化特性的通用性更強的架構。
但 UT 的計算效率遠低于標準 Transformer,不適合當前語言建模等以參數為王的任務。那么,我們能不能開發出計算效率更高的 UT 模型,并這類任務上實現比標準 Transformer 更具競爭力的性能呢?
近日,包括 LSTM 之父 Jürgen Schmidhuber、斯坦福大學教授 Christopher Manning 等在內的研究者從全新
原文鏈接:Jurgen、曼寧等大佬新作:MoE重塑6年前的Universal Transformer,高效升級
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...