清華NLP組發(fā)布InfLLM：無(wú)需額外訓(xùn)練，「1024K超長(zhǎng)上下文」100%召回！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：清華NLP組發(fā)布InfLLM：無(wú)需額外訓(xùn)練，「1024K超長(zhǎng)上下文」100%召回！
關(guān)鍵字：記憶,上下文,語(yǔ)義,模型,單元
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：6896字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS
【新智元導(dǎo)讀】挖掘大模型固有的長(zhǎng)文本理解能力，InfLLM在沒(méi)有引入額外訓(xùn)練的情況下，利用一個(gè)外部記憶模塊存儲(chǔ)超長(zhǎng)上下文信息，實(shí)現(xiàn)了上下文長(zhǎng)度的擴(kuò)展。大模型只能夠記憶與理解有限的上下文已經(jīng)成為大模型在真實(shí)應(yīng)用中的能力瓶頸，例如對(duì)話式AI系統(tǒng)往往無(wú)法記憶你前一天對(duì)話的內(nèi)容，利用大模型構(gòu)建智能體會(huì)產(chǎn)生前后不一致的行為與記憶。
為了讓大模型能夠記憶并處理更長(zhǎng)的上下文，來(lái)自清華大學(xué)、麻省理工學(xué)院和人民大學(xué)的研究人員聯(lián)合提出無(wú)需額外訓(xùn)練的大模型長(zhǎng)文本理解方法 InfLLM，利用少量計(jì)算和顯存開(kāi)銷實(shí)現(xiàn)了 LLM的超長(zhǎng)文本處理。論文地址：https://arxiv.org/abs/2402.04617
代碼倉(cāng)庫(kù)：https://github.com/thunlp/InfLLM
實(shí)驗(yàn)結(jié)果表明，InfLLM能夠有效地?cái)U(kuò)展Mistral、LLaMA的上下文處理窗口，并在1024K上下文的海底撈針任務(wù)中實(shí)現(xiàn)100%召回。
研究背景大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型（LLMs）近幾年在眾多任務(wù)上取得了突破性的進(jìn)展，成為眾多應(yīng)用的基礎(chǔ)模型。
這些真實(shí)應(yīng)用也給LLMs處理超長(zhǎng)序列的能力提出了更高的要求

原文鏈接：清華NLP組發(fā)布InfLLM：無(wú)需額外訓(xùn)練，「1024K超長(zhǎng)上下文」100%召回！

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文