Transformer的無限之路:位置編碼視角下的長度外推綜述
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Transformer的無限之路:位置編碼視角下的長度外推綜述
關(guān)鍵字:位置,模型,方法,能力,正弦
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5620字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,Transformer 模型因其在序列建模中的卓越性能而受到廣泛關(guān)注。然而,Transformer 及在其基礎(chǔ)之上的大語言模型(Large Language Models,LLMs)都不具備有效長度外推(Length Extrapolation)的能力。這意味著,受限于其訓(xùn)練時(shí)預(yù)設(shè)的上下文長度限制,大模型無法有效處理超過該長度限制的序列。
文本續(xù)寫和語言延展是人類語言的核心能力之一,與之相對(duì)的,長度外推是語言模型智能進(jìn)化的重要方向,也是在大模型時(shí)代最為高效的將模型的能力遷移到長序列數(shù)據(jù)的重要方法,對(duì)該問題的研究兼具理論價(jià)值和應(yīng)用價(jià)值。因此,大量的相關(guān)工作持續(xù)涌現(xiàn),在不斷擴(kuò)展語言模型能力邊界的同時(shí),也呼喚一篇系統(tǒng)性的綜述來對(duì)這一領(lǐng)域進(jìn)行概覽。
基于此,哈爾濱工業(yè)大學(xué)的研究者們從位置編碼(Position Encoding, PE)的角度出發(fā),全面地總結(jié)了 Transformer 模型在長度外推方面的研究進(jìn)展,系統(tǒng)地回顧了各種旨在增強(qiáng) Transformer 長度外推能力的方法
原文鏈接:Transformer的無限之路:位置編碼視角下的長度外推綜述
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)