港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布大數(shù)據(jù)文摘

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法
關(guān)鍵字：模型,上下文,注意力,長上,方法
文章來源：大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù)：7902字

內(nèi)容摘要：

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投
現(xiàn)階段，上下文窗口長度基本上成為了評估LLM能力的硬性指標(biāo)，上下文的長度越長，代表大模型能夠接受的用戶要求越復(fù)雜，近期OpenAI剛發(fā)布的GPT-4 Turbo模型甚至直接支持到128K的上下文窗口，相當(dāng)于用戶可以直接喂給模型一部長達(dá)300頁的小說。但是從模型實(shí)現(xiàn)角度來看，訓(xùn)練具有長上下文大小的LLM的成本很高。例如在8192的上下文長度上訓(xùn)練參數(shù)規(guī)模相同的模型，自注意力層的計(jì)算成本是2048的16倍。
本文介紹一篇來自CUHK和MIT合作完成的工作，本文結(jié)合LoRA方法提出了長上下文LLM微調(diào)框架LongLoRA，本文從兩個(gè)方面對LLM的上下文窗口進(jìn)行了優(yōu)化，首先提出了shift short attention（S2-Attn）模塊替代了原始模型推理過程中的密集全局注意力，可以節(jié)省大量的計(jì)算量，同時(shí)保持了與普通注意力微調(diào)相近的性能。此外作者重新審視了LLM上下文窗口參數(shù)的高效微調(diào)機(jī)制，提出了LongLoRA策略，LongLoRA可以在單個(gè)8×A100機(jī)器上實(shí)現(xiàn)LLaMA2-7B模型的上下文從4k擴(kuò)展到100k，或LLaMA2-70B模型的上下文擴(kuò)展到32

原文鏈接：港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法