AIGC動態歡迎閱讀
原標題:符堯大佬一作發文,僅改訓練數據,就讓LLaMa-2上下文長度擴展20倍!
關鍵字:長上,模型,下文,長度,數據
文章來源:夕小瑤科技說
內容字數:8378字
內容摘要:
夕小瑤科技說 原創作者 | Tscom、Python引言:探索語言模型的長上下文能力近日,谷歌推出了Gemini Pro 1.5,將上下文窗口長度擴展到100萬個tokens,目前領先世界。而其他語言模型也正在不斷探索長上下文能力,也就是模型處理和理解超出其訓練時所見上下文長度的能力。例如,一個模型可能在訓練時只看到了每個輸入中的4K tokens,但在實際應用中,我們希望它能夠處理長達128K tokens的文檔。這種能力對于多種應用場景至關重要,如多文檔問答、代碼庫級別的代碼理解、長歷史對話建模,以及語言模型驅動的自主代理等。
然而,由于注意力機制的二次復雜度,將模型的上下文長度從4K擴展到128K看上去似乎是不切實際的。本文將介紹一種數據工程方法,通過在適當的數據混合上輕量級的持續預訓練,來擴展語言模型的上下文長度至128K。
論文標題:Data Engineering for Scaling Language Models to 128K Context
公眾號「夕小瑤科技說」后臺回復“128K”獲取論文PDF!
長上下文建模的重要性1. 128K上下文窗口的新應用場景
隨著語
原文鏈接:符堯大佬一作發文,僅改訓練數據,就讓LLaMa-2上下文長度擴展20倍!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...