?新一代注意力機制Lightning Attention-2：無限序列長度、恒定算力開銷、更高建模精度

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：?新一代注意力機制Lightning Attention-2：無限序列長度、恒定算力開銷、更高建模精度
關鍵字：序列,線性,模型,速度,注意力
文章來源：機器之心
內容字數：7588字

內容摘要：

機器之心專欄
機器之心編輯部Lightning Attention-2 是一種新型的線性注意力機制，讓長序列的訓練和推理成本與 1K 序列長度的一致。
大語言模型序列長度的限制，極大地制約了其在人工智能領域的應用，比如多輪對話、長文本理解、多模態數據的處理與生成等。造成這一限制的根本原因在于當前大語言模型均采用的 Transformer 架構有著相對于序列長度的二次計算復雜度。這意味著隨著序列長度的增加，需要的計算資源成幾何倍數提升。如何高效地處理長序列一直是大語言模型的挑戰之一。
之前的方法往往集中在如何讓大語言模型在推理階段適應更長的序列。比如采用 Alibi 或者類似的相對位置編碼的方式來讓模型自適應不同的輸入序列長度，亦或采用對 RoPE 等類似的相對位置編碼進行差值的方式，在已經完成訓練的模型上再進行進一步的短暫精調來達到擴增序列長度的目的。這些方法只是讓大模型具有了一定的長序列建模能力，但實際訓練和推理的開銷并沒有減少。
OpenNLPLab 團隊嘗試一勞永逸地解決大語言模型長序列問題。他們提出并開源了 Lightning Attention-2—— 一種新型的線性注意力機

原文鏈接：?新一代注意力機制Lightning Attention-2：無限序列長度、恒定算力開銷、更高建模精度