AIGC動態歡迎閱讀
原標題:今日Arxiv最熱NLP大模型論文:Llama-2上下文擴大48倍的方法來了,港大發布,無需訓練
關鍵字:模型,上下文,長上,下文,長度
文章來源:夕小瑤科技說
內容字數:9509字
內容摘要:
夕小瑤科技說 原創作者 | 芒果
引言:大語言模型的長上下文理解能力在當今的人工智能領域,大語言模型(Large Language Models,簡稱LLMs)的長上下文理解能力成為了一個重要的研究方向。這種能力對于模型來說至關重要,因為它使得LLMs能夠有效地應對各種應用場景,例如在龐大的PDF文件中分析和回應查詢、保留擴展的對話歷史以及增強交互式機器人的功能。然而,由于訓練語料庫的可獲取性有限,以及長上下文微調的成本過高,目前的開源模型在性能上往往無法與專有模型相媲美,且通常只能提供較小的模型尺寸(例如7B/13B)。
針對這些限制,不需要額外訓練即可進行上下文擴展的方法變得尤為吸引人。最近的無訓練方法,包括LM-infinite和StreamingLLM,已經展示了在有限上下文窗口訓練的LLMs能夠高效處理無限長度的文本。這些模型通過選擇性保留關鍵的局部信息來處理擴展序列,有效地維持了低困惑度(Perplexity,PPL),但它們失去了長距離依賴性。為了保留全局信息,另一種觀點是有效地推斷出超出訓練時遇到的序列長度。一些流行的技術,如基于Llama模型的位置插值(PI)和N
原文鏈接:今日Arxiv最熱NLP大模型論文:Llama-2上下文擴大48倍的方法來了,港大發布,無需訓練
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。