清華NLP組發(fā)布InfLLM:無需額外訓(xùn)練,「1024K超長上下文」100%召回!

AIGC動態(tài)歡迎閱讀
原標(biāo)題:清華NLP組發(fā)布InfLLM:無需額外訓(xùn)練,「1024K超長上下文」100%召回!
關(guān)鍵字:記憶,上下文,語義,模型,單元
文章來源:新智元
內(nèi)容字?jǐn)?shù):6896字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】挖掘大模型固有的長文本理解能力,InfLLM在沒有引入額外訓(xùn)練的情況下,利用一個外部記憶模塊存儲超長上下文信息,實現(xiàn)了上下文長度的擴(kuò)展。大模型只能夠記憶與理解有限的上下文已經(jīng)成為大模型在真實應(yīng)用中的能力瓶頸,例如對話式AI系統(tǒng)往往無法記憶你前一天對話的內(nèi)容,利用大模型構(gòu)建智能體會產(chǎn)生前后不一致的行為與記憶。
為了讓大模型能夠記憶并處理更長的上下文,來自清華大學(xué)、麻省理工學(xué)院和人民大學(xué)的研究人員聯(lián)合提出無需額外訓(xùn)練的大模型長文本理解方法 InfLLM,利用少量計算和顯存開銷實現(xiàn)了 LLM的超長文本處理。論文地址:https://arxiv.org/abs/2402.04617
代碼倉庫:https://github.com/thunlp/InfLLM
實驗結(jié)果表明,InfLLM能夠有效地擴(kuò)展Mistral、LLaMA的上下文處理窗口,并在1024K上下文的海底撈針任務(wù)中實現(xiàn)100%召回。
研究背景大規(guī)模預(yù)訓(xùn)練語言模型(LLMs)近幾年在眾多任務(wù)上取得了突破性的進(jìn)展,成為眾多應(yīng)用的基礎(chǔ)模型。
這些真實應(yīng)用也給LLMs處理超長序列的能力提出了更高的要求
原文鏈接:清華NLP組發(fā)布InfLLM:無需額外訓(xùn)練,「1024K超長上下文」100%召回!
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號