符堯大佬一作發文，僅改訓練數據，就讓LLaMa-2上下文長度擴展20倍！

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：符堯大佬一作發文，僅改訓練數據，就讓LLaMa-2上下文長度擴展20倍！
關鍵字：長上,模型,下文,長度,數據
文章來源：夕小瑤科技說
內容字數：8378字

內容摘要：

夕小瑤科技說原創作者 | Tscom、Python引言：探索語言模型的長上下文能力近日，谷歌推出了Gemini Pro 1.5，將上下文窗口長度擴展到100萬個tokens，目前領先世界。而其他語言模型也正在不斷探索長上下文能力，也就是模型處理和理解超出其訓練時所見上下文長度的能力。例如，一個模型可能在訓練時只看到了每個輸入中的4K tokens，但在實際應用中，我們希望它能夠處理長達128K tokens的文檔。這種能力對于多種應用場景至關重要，如多文檔問答、代碼庫級別的代碼理解、長歷史對話建模，以及語言模型驅動的自主代理等。
然而，由于注意力機制的二次復雜度，將模型的上下文長度從4K擴展到128K看上去似乎是不切實際的。本文將介紹一種數據工程方法，通過在適當的數據混合上輕量級的持續預訓練，來擴展語言模型的上下文長度至128K。
論文標題：Data Engineering for Scaling Language Models to 128K Context
公眾號「夕小瑤科技說」后臺回復“128K”獲取論文PDF！
長上下文建模的重要性1. 128K上下文窗口的新應用場景
隨著語

原文鏈接：符堯大佬一作發文，僅改訓練數據，就讓LLaMa-2上下文長度擴展20倍！