AIGC動態歡迎閱讀
原標題:DeepMind升級Transformer,前向通過FLOPs最多可降一半
關鍵字:路由,路徑,權重,模塊,模型
文章來源:機器之心
內容字數:8039字
內容摘要:
機器之心報道
編輯:Panda W引入混合深度,DeepMind 新設計可大幅提升 Transformer 效率。Transformer 的重要性無需多言,目前也有很多研究團隊致力于改進這種變革性技術,其中一個重要的改進方向是提升 Transformer 的效率,比如讓其具備自適應計算能力,從而可以節省下不必要的計算。
正如不久前 Transformer 架構的提出之一、NEAR Protocol 聯合創始人 Illiya Polosukhin 在與黃仁勛的對話中說到的那樣:「自適應計算是接下來必須出現的。我們要關注,在特定問題上具體要花費多少計算資源。」其實人類就天生具備自適應計算的能力 —— 人在解決各種不同的問題時,會自然地分配不同的時間和精力。
語言建模也應如此,為了得到準確的預測結果,并不需要為所有 token 和序列都投入同樣的時間或資源。但是,Transformer 模型在一次前向傳播中卻會為每個 token 花費同等的計算量。這不禁讓人哀嘆:大部分計算都被浪費了!理想情況下,如果可以不執行非必要的計算,就可以降低 Transformer 的計算預算。
條件式計算這種技術
原文鏈接:DeepMind升級Transformer,前向通過FLOPs最多可降一半
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...