REFRAG – Meta推出的高效解碼框架
REFRAG:Meta超級智能實驗室推出的性RAG解碼框架,通過“壓縮、感知、擴展”三步流程,大幅提升LLM處理外部知識的效率與質(zhì)量,實現(xiàn)首字生成延遲最高加速30倍,同時等效擴展上下文窗口16倍。
REFRAG是Meta超級智能實驗室為檢索增強生成(RAG)任務(wù)量身打造的高效解碼框架。該框架巧妙地運用“壓縮(Compress)、感知(Sense)、擴展(Expand)”的創(chuàng)新流程,旨在革新大型語言模型(LLM)整合外部知識的方式。
其核心在于將檢索到的冗長文本切分成多個的“塊”,并為每個“塊”生成精煉的向量表示,從而顯著縮短輸入序列的長度,大幅降低計算開銷。通過強化學(xué)習(xí)策略網(wǎng)絡(luò),REFRAG能夠智能地識別并保留至關(guān)重要的文本片段的原始形態(tài),確保關(guān)鍵信息不被壓縮所淹沒。這一優(yōu)化過程不僅將首字生成延遲(TTFT)提升了高達30倍,更在保持甚至超越完整上下文模型性能的同時,有效解決了LLM在處理長上下文時的效率瓶頸。
REFRAG的核心優(yōu)勢
極致的速度提升:REFRAG通過精密的解碼優(yōu)化,能夠?qū)崿F(xiàn)高達30倍的首字生成速度飛躍,為實時交互應(yīng)用帶來前所未有的響應(yīng)速度。
卓越的性能保證:在加速的同時,REFRAG在困惑度以及多項下游任務(wù)的準(zhǔn)確性上均能與使用完整上下文的模型媲美,甚至在部分場景下表現(xiàn)更佳,確保了生成內(nèi)容的質(zhì)量。
無縫的上下文擴展:得益于其創(chuàng)新的壓縮技術(shù),REFRAG能夠在相同的計算資源下處理更多的上下文信息,其等效上下文窗口擴大了16倍,極大地增強了模型處理長篇內(nèi)容的綜合能力。
廣泛的應(yīng)用適配性:REFRAG不僅適用于核心的RAG任務(wù),還能在多輪對話、長文檔摘要等需要深度理解和處理長上下文的場景中發(fā)揮巨大作用,展現(xiàn)出其強大的通用性。
REFRAG的技術(shù)基石
壓縮(Compress):REFRAG將冗長的參考資料分割成若干“塊”,并為每個“塊”生成緊湊的向量表示(“塊嵌入”)。此舉有效縮減了輸入序列,降低了后續(xù)計算量,并避免了重復(fù)的編碼計算。
感知(Sense):通過訓(xùn)練一個基于強化學(xué)習(xí)(RL)的策略網(wǎng)絡(luò),REFRAG能夠分析所有“塊嵌入”以及用戶查詢,精準(zhǔn)判斷哪些文本塊承載著核心信息,需要以原始文本形式呈現(xiàn)給LLM,從而杜絕關(guān)鍵信息的遺漏。
擴展(Expand):最終輸入給主LLM的是一個混合序列,其中包含大部分上下文的“塊嵌入”以及少量被識別為關(guān)鍵的“原始文本塊”。LLM基于這些優(yōu)化后的輸入生成答案,既保留了核心信息,又最大限度地減輕了計算負(fù)擔(dān)。
利用注意力機制的稀疏性:REFRAG的創(chuàng)新基于一個關(guān)鍵觀察:在RAG任務(wù)中,LLM的注意力機制呈現(xiàn)出一種“塊對角”的稀疏模式,即注意力主要集中于單個文檔內(nèi)部以及文檔與用戶問題之間的關(guān)聯(lián)。REFRAG通過選擇性地壓縮和擴展上下文,有效減少了不必要的計算,顯著提升了效率。
REFRAG的創(chuàng)新之路
arXiv技術(shù)論文:深入了解REFRAG的理論基礎(chǔ)與實驗驗證,請訪問:https://arxiv.org/pdf/2509.01092
REFRAG的廣闊應(yīng)用前景
檢索增強生成(RAG):在需要快速、精準(zhǔn)答案的場景,如智能客服、在線問答系統(tǒng)等,REFRAG能顯著提升首字生成速度,優(yōu)化用戶體驗。
多輪對話系統(tǒng):REFRAG能夠高效處理長對話歷史,確保對話的連貫性與準(zhǔn)確性,從而提升用戶在多輪交互中的整體感受。
長文檔摘要:對于新聞、學(xué)術(shù)論文等長文本,REFRAG能夠高效處理并生成高質(zhì)量的摘要,是內(nèi)容自動化處理的得力助手。
知識圖譜問答:REFRAG能夠與知識圖譜協(xié)同工作,快速檢索相關(guān)知識并生成準(zhǔn)確答案,是知識圖譜驅(qū)動的智能問答系統(tǒng)的理想選擇。
內(nèi)容創(chuàng)作輔助:在內(nèi)容創(chuàng)作領(lǐng)域,REFRAG能夠快速生成創(chuàng)意文本,輔助作者進行構(gòu)思和寫作,極大地提高了創(chuàng)作效率。