今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發布，無需訓練

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發布，無需訓練
關鍵字：模型,上下文,長上,下文,長度
文章來源：夕小瑤科技說
內容字數：9509字

內容摘要：

夕小瑤科技說原創作者 | 芒果
引言：大語言模型的長上下文理解能力在當今的人工智能領域，大語言模型（Large Language Models，簡稱LLMs）的長上下文理解能力成為了一個重要的研究方向。這種能力對于模型來說至關重要，因為它使得LLMs能夠有效地應對各種應用場景，例如在龐大的PDF文件中分析和回應查詢、保留擴展的對話歷史以及增強交互式機器人的功能。然而，由于訓練語料庫的可獲取性有限，以及長上下文微調的成本過高，目前的開源模型在性能上往往無法與專有模型相媲美，且通常只能提供較小的模型尺寸（例如7B/13B）。
針對這些限制，不需要額外訓練即可進行上下文擴展的方法變得尤為吸引人。最近的無訓練方法，包括LM-infinite和StreamingLLM，已經展示了在有限上下文窗口訓練的LLMs能夠高效處理無限長度的文本。這些模型通過選擇性保留關鍵的局部信息來處理擴展序列，有效地維持了低困惑度（Perplexity，PPL），但它們失去了長距離依賴性。為了保留全局信息，另一種觀點是有效地推斷出超出訓練時遇到的序列長度。一些流行的技術，如基于Llama模型的位置插值（PI）和N

原文鏈接：今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發布，無需訓練

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：更快的AI前沿，更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備行業嗅覺與報道深度。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發布，無需訓練

AIGC動態歡迎閱讀

內容摘要：

聯系作者

老黃最新專訪：芯片短缺難以結束，下個Transformer已經出現

月之暗面LLM：Kimi Chat能力體驗報告（附API調用方法）

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

今日Arxiv最熱NLP大模型論文：Llama-2上下文擴大48倍的方法來了，港大發布，無需訓練

AIGC動態歡迎閱讀

內容摘要：

聯系作者

老黃最新專訪：芯片短缺難以結束，下個Transformer已經出現

月之暗面LLM：Kimi Chat能力體驗報告（附API調用方法）

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

老黃最新專訪：芯片短缺難以結束，下個Transformer已經出現