港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法
關(guān)鍵字:模型,上下文,注意力,長上,方法
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):7902字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投
現(xiàn)階段,上下文窗口長度基本上成為了評估LLM能力的硬性指標(biāo),上下文的長度越長,代表大模型能夠接受的用戶要求越復(fù)雜,近期OpenAI剛發(fā)布的GPT-4 Turbo模型甚至直接支持到128K的上下文窗口,相當(dāng)于用戶可以直接喂給模型一部長達(dá)300頁的小說。但是從模型實(shí)現(xiàn)角度來看,訓(xùn)練具有長上下文大小的LLM的成本很高。例如在8192的上下文長度上訓(xùn)練參數(shù)規(guī)模相同的模型,自注意力層的計(jì)算成本是2048的16倍。
本文介紹一篇來自CUHK和MIT合作完成的工作,本文結(jié)合LoRA方法提出了長上下文LLM微調(diào)框架LongLoRA,本文從兩個(gè)方面對LLM的上下文窗口進(jìn)行了優(yōu)化,首先提出了shift short attention(S2-Attn)模塊替代了原始模型推理過程中的密集全局注意力,可以節(jié)省大量的計(jì)算量,同時(shí)保持了與普通注意力微調(diào)相近的性能。此外作者重新審視了LLM上下文窗口參數(shù)的高效微調(diào)機(jī)制,提出了LongLoRA策略,LongLoRA可以在單個(gè)8×A100機(jī)器上實(shí)現(xiàn)LLaMA2-7B模型的上下文從4k擴(kuò)展到100k,或LLaMA2-70B模型的上下文擴(kuò)展到32
原文鏈接:港中文聯(lián)合MIT提出超長上下文LongLoRA大模型微調(diào)算法
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化