AIGC動態歡迎閱讀
原標題:港中文聯合MIT提出超長上下文LongLoRA大模型微調算法
關鍵字:模型,上下文,注意力,長上,方法
文章來源:大數據文摘
內容字數:7902字
內容摘要:
大數據文摘受權轉載自將門創投
現階段,上下文窗口長度基本上成為了評估LLM能力的硬性指標,上下文的長度越長,代表大模型能夠接受的用戶要求越復雜,近期OpenAI剛發布的GPT-4 Turbo模型甚至直接支持到128K的上下文窗口,相當于用戶可以直接喂給模型一部長達300頁的小說。但是從模型實現角度來看,訓練具有長上下文大小的LLM的成本很高。例如在8192的上下文長度上訓練參數規模相同的模型,自注意力層的計算成本是2048的16倍。
本文介紹一篇來自CUHK和MIT合作完成的工作,本文結合LoRA方法提出了長上下文LLM微調框架LongLoRA,本文從兩個方面對LLM的上下文窗口進行了優化,首先提出了shift short attention(S2-Attn)模塊替代了原始模型推理過程中的密集全局注意力,可以節省大量的計算量,同時保持了與普通注意力微調相近的性能。此外作者重新審視了LLM上下文窗口參數的高效微調機制,提出了LongLoRA策略,LongLoRA可以在單個8×A100機器上實現LLaMA2-7B模型的上下文從4k擴展到100k,或LLaMA2-70B模型的上下文擴展到32
原文鏈接:港中文聯合MIT提出超長上下文LongLoRA大模型微調算法
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...