圖靈獎得主Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存

AIGC動態1年前 (2024)發布人工智能學家

AIGC動態歡迎閱讀

原標題：圖靈獎得主Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存
關鍵字：注意力,高效,序列,報告,時間
文章來源：人工智能學家
內容字數：10324字

內容摘要：

來源：機器之心
機器之心編輯部既能像 Transformer 一樣并行訓練，推理時內存需求又不隨 token 數線性遞增，長上下文又有新思路了？序列建模的進展具有極大的影響力，因為它們在廣泛的應用中發揮著重要作用，包括強化學習（例如，機器人和自動駕駛）、時間序列分類（例如，金融欺詐檢測和醫學診斷）等。
在過去的幾年里，Transformer 的出現標志著序列建模中的一個重大突破，這主要得益于 Transformer 提供了一種能夠利用 GPU 并行處理的高性能架構。
然而，Transformer 在推理時計算開銷很大，主要在于內存和計算需求呈二次擴展，從而限制了其在低資源環境中的應用（例如，移動和嵌入式設備）。盡管可以采用 KV 緩存等技術提高推理效率，但 Transformer 對于低資源領域來說仍然非常昂貴，原因在于：（1）隨 token 數量線性增加的內存，以及（2）緩存所有先前的 token 到模型中。在具有長上下文（即大量 token）的環境中，這一問題對 Transformer 推理的影響更大。
為了解決這個問題，加拿大皇家銀行 AI 研究所 Borealis AI、蒙特利

原文鏈接：圖靈獎得主Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存