DeepMind升級Transformer,前向通過FLOPs最多可降一半

AIGC動態(tài)歡迎閱讀
原標題:DeepMind升級Transformer,前向通過FLOPs最多可降一半
關(guān)鍵字:路由,路徑,權(quán)重,模塊,模型
文章來源:機器之心
內(nèi)容字數(shù):8039字
內(nèi)容摘要:
機器之心報道
編輯:Panda W引入混合深度,DeepMind 新設(shè)計可大幅提升 Transformer 效率。Transformer 的重要性無需多言,目前也有很多研究團隊致力于改進這種變革性技術(shù),其中一個重要的改進方向是提升 Transformer 的效率,比如讓其具備自適應(yīng)計算能力,從而可以節(jié)省下不必要的計算。
正如不久前 Transformer 架構(gòu)的提出之一、NEAR Protocol 聯(lián)合創(chuàng)始人 Illiya Polosukhin 在與黃仁勛的對話中說到的那樣:「自適應(yīng)計算是接下來必須出現(xiàn)的。我們要關(guān)注,在特定問題上具體要花費多少計算資源。」其實人類就天生具備自適應(yīng)計算的能力 —— 人在解決各種不同的問題時,會自然地分配不同的時間和精力。
語言建模也應(yīng)如此,為了得到準確的預(yù)測結(jié)果,并不需要為所有 token 和序列都投入同樣的時間或資源。但是,Transformer 模型在一次前向傳播中卻會為每個 token 花費同等的計算量。這不禁讓人哀嘆:大部分計算都被浪費了!理想情況下,如果可以不執(zhí)行非必要的計算,就可以降低 Transformer 的計算預(yù)算。
條件式計算這種技術(shù)
原文鏈接:DeepMind升級Transformer,前向通過FLOPs最多可降一半
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號