Transformer的無限之路：位置編碼視角下的長度外推綜述

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Transformer的無限之路：位置編碼視角下的長度外推綜述
關(guān)鍵字：位置,模型,方法,能力,正弦
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5620字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部在自然語言處理（Natural Language Processing，NLP）領(lǐng)域，Transformer 模型因其在序列建模中的卓越性能而受到廣泛關(guān)注。然而，Transformer 及在其基礎(chǔ)之上的大語言模型（Large Language Models，LLMs）都不具備有效長度外推（Length Extrapolation）的能力。這意味著，受限于其訓(xùn)練時(shí)預(yù)設(shè)的上下文長度限制，大模型無法有效處理超過該長度限制的序列。
文本續(xù)寫和語言延展是人類語言的核心能力之一，與之相對(duì)的，長度外推是語言模型智能進(jìn)化的重要方向，也是在大模型時(shí)代最為高效的將模型的能力遷移到長序列數(shù)據(jù)的重要方法，對(duì)該問題的研究兼具理論價(jià)值和應(yīng)用價(jià)值。因此，大量的相關(guān)工作持續(xù)涌現(xiàn)，在不斷擴(kuò)展語言模型能力邊界的同時(shí)，也呼喚一篇系統(tǒng)性的綜述來對(duì)這一領(lǐng)域進(jìn)行概覽。
基于此，哈爾濱工業(yè)大學(xué)的研究者們從位置編碼（Position Encoding, PE）的角度出發(fā)，全面地總結(jié)了 Transformer 模型在長度外推方面的研究進(jìn)展，系統(tǒng)地回顧了各種旨在增強(qiáng) Transformer 長度外推能力的方法

原文鏈接：Transformer的無限之路：位置編碼視角下的長度外推綜述