面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了
關鍵字：上下文,長上,記憶,下文,高效
文章來源：機器之心
內容字數：8005字

內容摘要：

機器之心報道
編輯：rome rome作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。
ChatGPT 的誕生，讓基于 Transformer 的大型語言模型 (LLM) 為通用人工智能（AGI）鋪開了一條性的道路，并在知識庫、人機交互、機器人等多個領域得到應用。然而，目前存在一個普遍的限制：由于資源受限，當前大多 LLM 主要是在較短的文本上進行預訓練，導致它們在較長上下文方面的表現較差，而長上下文在現實世界的環境中是更加常見的。
最近的一篇綜述論文對此進行了全面的調研，作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。
論文鏈接：https://arxiv.org/pdf/2311.12351.pdf
論文首先分析了使用當前基于 Transformer 的模型處理長上下文輸入和輸出的問題。然后，提供了一個全面的分類體系，以指導 Transformer 架構升級的領域，來解決這些問題。作者對長上下文 LLM 廣泛使用的評估需求進行了調研，包

原文鏈接：面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了