LLM上下文窗口突破200萬(wàn)!無(wú)需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM上下文窗口突破200萬(wàn)!無(wú)需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍
關(guān)鍵字:上下文,窗口,位置,長(zhǎng)度,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):10906字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】LongRoPE方法首次將LLM的窗口擴(kuò)展到了2048k個(gè)token,只是簡(jiǎn)單微調(diào)的情況下,就能實(shí)現(xiàn)與短上下文窗口相近的性能!大型語(yǔ)言模型(LLM)往往會(huì)追求更長(zhǎng)的「上下文窗口」,但由于微調(diào)成本高、長(zhǎng)文本稀缺以及新token位置引入的災(zāi)難值(catastrophic values)等問(wèn)題,目前模型的上下文窗口大多不超過(guò)128k個(gè)token
最近,Microsoft Research的研究人員提出了一個(gè)新模型LongRoPE,首次將預(yù)訓(xùn)練 LLM 的上下文窗口擴(kuò)展到了2048k個(gè)token,在256k的訓(xùn)練長(zhǎng)度下只需要1000個(gè)微調(diào)步驟即可,同時(shí)還能保持原始短上下文窗口的性能。論文鏈接:https://arxiv.org/abs/2402.13753
代碼鏈接:https: //github.com/microsoft/LongRoPE
LongRoPE主要包含了三個(gè)關(guān)鍵創(chuàng)新點(diǎn):
1. 通過(guò)高效搜索識(shí)別并利用了位置插值中的兩種非均勻性,為微調(diào)提供了更好的初始化,并在非微況下實(shí)現(xiàn)了 8 倍擴(kuò)展;
2. 引入了漸進(jìn)擴(kuò)展策略,首先微調(diào) 256k 長(zhǎng)度
原文鏈接:LLM上下文窗口突破200萬(wàn)!無(wú)需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。