AIGC動態歡迎閱讀
原標題:LLM上下文窗口突破200萬!無需架構變化+復雜微調,輕松擴展8倍
關鍵字:上下文,窗口,位置,長度,研究人員
文章來源:新智元
內容字數:10906字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】LongRoPE方法首次將LLM的窗口擴展到了2048k個token,只是簡單微調的情況下,就能實現與短上下文窗口相近的性能!大型語言模型(LLM)往往會追求更長的「上下文窗口」,但由于微調成本高、長文本稀缺以及新token位置引入的災難值(catastrophic values)等問題,目前模型的上下文窗口大多不超過128k個token
最近,Microsoft Research的研究人員提出了一個新模型LongRoPE,首次將預訓練 LLM 的上下文窗口擴展到了2048k個token,在256k的訓練長度下只需要1000個微調步驟即可,同時還能保持原始短上下文窗口的性能。論文鏈接:https://arxiv.org/abs/2402.13753
代碼鏈接:https: //github.com/microsoft/LongRoPE
LongRoPE主要包含了三個關鍵創新點:
1. 通過高效搜索識別并利用了位置插值中的兩種非均勻性,為微調提供了更好的初始化,并在非微況下實現了 8 倍擴展;
2. 引入了漸進擴展策略,首先微調 256k 長度
原文鏈接:LLM上下文窗口突破200萬!無需架構變化+復雜微調,輕松擴展8倍
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...