REFRAG – Meta推出的高效解碼框架
REFRAG:Meta超級智能實驗室推出的性RAG解碼框架,通過“壓縮、感知、擴展”三步流程,大幅提升LLM處理外部知識的效率與質量,實現首字生成延遲最高加速30倍,同時等效擴展上下文窗口16倍。
REFRAG是Meta超級智能實驗室為檢索增強生成(RAG)任務量身打造的高效解碼框架。該框架巧妙地運用“壓縮(Compress)、感知(Sense)、擴展(Expand)”的創新流程,旨在革新大型語言模型(LLM)整合外部知識的方式。
其核心在于將檢索到的冗長文本切分成多個的“塊”,并為每個“塊”生成精煉的向量表示,從而顯著縮短輸入序列的長度,大幅降低計算開銷。通過強化學習策略網絡,REFRAG能夠智能地識別并保留至關重要的文本片段的原始形態,確保關鍵信息不被壓縮所淹沒。這一優化過程不僅將首字生成延遲(TTFT)提升了高達30倍,更在保持甚至超越完整上下文模型性能的同時,有效解決了LLM在處理長上下文時的效率瓶頸。
REFRAG的核心優勢
極致的速度提升:REFRAG通過精密的解碼優化,能夠實現高達30倍的首字生成速度飛躍,為實時交互應用帶來前所未有的響應速度。
卓越的性能保證:在加速的同時,REFRAG在困惑度以及多項下游任務的準確性上均能與使用完整上下文的模型媲美,甚至在部分場景下表現更佳,確保了生成內容的質量。
無縫的上下文擴展:得益于其創新的壓縮技術,REFRAG能夠在相同的計算資源下處理更多的上下文信息,其等效上下文窗口擴大了16倍,極大地增強了模型處理長篇內容的綜合能力。
廣泛的應用適配性:REFRAG不僅適用于核心的RAG任務,還能在多輪對話、長文檔摘要等需要深度理解和處理長上下文的場景中發揮巨大作用,展現出其強大的通用性。
REFRAG的技術基石
壓縮(Compress):REFRAG將冗長的參考資料分割成若干“塊”,并為每個“塊”生成緊湊的向量表示(“塊嵌入”)。此舉有效縮減了輸入序列,降低了后續計算量,并避免了重復的編碼計算。
感知(Sense):通過訓練一個基于強化學習(RL)的策略網絡,REFRAG能夠分析所有“塊嵌入”以及用戶查詢,精準判斷哪些文本塊承載著核心信息,需要以原始文本形式呈現給LLM,從而杜絕關鍵信息的遺漏。
擴展(Expand):最終輸入給主LLM的是一個混合序列,其中包含大部分上下文的“塊嵌入”以及少量被識別為關鍵的“原始文本塊”。LLM基于這些優化后的輸入生成答案,既保留了核心信息,又最大限度地減輕了計算負擔。
利用注意力機制的稀疏性:REFRAG的創新基于一個關鍵觀察:在RAG任務中,LLM的注意力機制呈現出一種“塊對角”的稀疏模式,即注意力主要集中于單個文檔內部以及文檔與用戶問題之間的關聯。REFRAG通過選擇性地壓縮和擴展上下文,有效減少了不必要的計算,顯著提升了效率。
REFRAG的創新之路
arXiv技術論文:深入了解REFRAG的理論基礎與實驗驗證,請訪問:https://arxiv.org/pdf/2509.01092
REFRAG的廣闊應用前景
檢索增強生成(RAG):在需要快速、精準答案的場景,如智能客服、在線問答系統等,REFRAG能顯著提升首字生成速度,優化用戶體驗。
多輪對話系統:REFRAG能夠高效處理長對話歷史,確保對話的連貫性與準確性,從而提升用戶在多輪交互中的整體感受。
長文檔摘要:對于新聞、學術論文等長文本,REFRAG能夠高效處理并生成高質量的摘要,是內容自動化處理的得力助手。
知識圖譜問答:REFRAG能夠與知識圖譜協同工作,快速檢索相關知識并生成準確答案,是知識圖譜驅動的智能問答系統的理想選擇。
內容創作輔助:在內容創作領域,REFRAG能夠快速生成創意文本,輔助作者進行構思和寫作,極大地提高了創作效率。

粵公網安備 44011502001135號