清華NLP組發(fā)布InfLLM:無(wú)需額外訓(xùn)練,「1024K超長(zhǎng)上下文」100%召回!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:清華NLP組發(fā)布InfLLM:無(wú)需額外訓(xùn)練,「1024K超長(zhǎng)上下文」100%召回!
關(guān)鍵字:記憶,上下文,語(yǔ)義,模型,單元
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6896字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】挖掘大模型固有的長(zhǎng)文本理解能力,InfLLM在沒(méi)有引入額外訓(xùn)練的情況下,利用一個(gè)外部記憶模塊存儲(chǔ)超長(zhǎng)上下文信息,實(shí)現(xiàn)了上下文長(zhǎng)度的擴(kuò)展。大模型只能夠記憶與理解有限的上下文已經(jīng)成為大模型在真實(shí)應(yīng)用中的能力瓶頸,例如對(duì)話式AI系統(tǒng)往往無(wú)法記憶你前一天對(duì)話的內(nèi)容,利用大模型構(gòu)建智能體會(huì)產(chǎn)生前后不一致的行為與記憶。
為了讓大模型能夠記憶并處理更長(zhǎng)的上下文,來(lái)自清華大學(xué)、麻省理工學(xué)院和人民大學(xué)的研究人員聯(lián)合提出無(wú)需額外訓(xùn)練的大模型長(zhǎng)文本理解方法 InfLLM,利用少量計(jì)算和顯存開(kāi)銷實(shí)現(xiàn)了 LLM的超長(zhǎng)文本處理。論文地址:https://arxiv.org/abs/2402.04617
代碼倉(cāng)庫(kù):https://github.com/thunlp/InfLLM
實(shí)驗(yàn)結(jié)果表明,InfLLM能夠有效地?cái)U(kuò)展Mistral、LLaMA的上下文處理窗口,并在1024K上下文的海底撈針任務(wù)中實(shí)現(xiàn)100%召回。
研究背景大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(LLMs)近幾年在眾多任務(wù)上取得了突破性的進(jìn)展,成為眾多應(yīng)用的基礎(chǔ)模型。
這些真實(shí)應(yīng)用也給LLMs處理超長(zhǎng)序列的能力提出了更高的要求
原文鏈接:清華NLP組發(fā)布InfLLM:無(wú)需額外訓(xùn)練,「1024K超長(zhǎng)上下文」100%召回!
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。