LongRAG是一款由清華大學(xué)、中國(guó)科學(xué)院及智譜研究團(tuán)隊(duì)共同開(kāi)發(fā)的雙視角魯棒檢索增強(qiáng)生成(RAG)框架,專(zhuān)注于長(zhǎng)文本問(wèn)答(LCQA)。該系統(tǒng)通過(guò)結(jié)合混合檢索器、LLM增強(qiáng)信息提取器、CoT引導(dǎo)過(guò)濾器和LLM增強(qiáng)生成器四大核心組件,有效應(yīng)對(duì)長(zhǎng)文本問(wèn)答中的全局上下文理解和細(xì)節(jié)識(shí)別的挑戰(zhàn)。LongRAG在多個(gè)數(shù)據(jù)集上優(yōu)于長(zhǎng)上下文LLM、高級(jí)RAG系統(tǒng)及普通RAG等基準(zhǔn)模型,展現(xiàn)出其卓越的性能和魯棒性。此外,LongRAG還提供了自動(dòng)化微調(diào)數(shù)據(jù)構(gòu)建管道,提升系統(tǒng)的“指令跟隨”能力和領(lǐng)域適應(yīng)性。
LongRAG是什么
LongRAG是清華大學(xué)、中國(guó)科學(xué)院與智譜研究團(tuán)隊(duì)推出的一種面向長(zhǎng)文本問(wèn)答(LCQA)的雙視角魯棒檢索增強(qiáng)生成框架。系統(tǒng)基于混合檢索器、LLM增強(qiáng)信息提取器、CoT引導(dǎo)過(guò)濾器以及LLM增強(qiáng)生成器四個(gè)主要組件,旨在有效解決長(zhǎng)文本問(wèn)答中的全局上下文理解與事實(shí)細(xì)節(jié)識(shí)別問(wèn)題。在多個(gè)數(shù)據(jù)集上,LongRAG的表現(xiàn)超越了長(zhǎng)上下文LLM、高級(jí)RAG系統(tǒng)及傳統(tǒng)RAG模型,顯示出其卓越的性能和穩(wěn)定性。它還提供了自動(dòng)化微調(diào)數(shù)據(jù)構(gòu)建流程,增強(qiáng)了系統(tǒng)在特定任務(wù)上的表現(xiàn)。
LongRAG的主要功能
- 雙視角信息處理:通過(guò)整合全局信息和事實(shí)細(xì)節(jié),提升對(duì)長(zhǎng)文本上下文問(wèn)題的理解與回答能力。
- 混合檢索器:快速?gòu)暮A繑?shù)據(jù)中檢索與用戶(hù)問(wèn)題相關(guān)的信息片段。
- LLM增強(qiáng)信息提取器:將檢索到的片段映射回原始的長(zhǎng)文本段落,提取出全局背景及結(jié)構(gòu)信息。
- CoT引導(dǎo)過(guò)濾器:利用鏈?zhǔn)剿伎迹–hain of Thought,CoT)引導(dǎo)模型關(guān)注與問(wèn)題相關(guān)的信息,過(guò)濾掉無(wú)關(guān)內(nèi)容。
- LLM增強(qiáng)生成器:結(jié)合全局信息和關(guān)鍵事實(shí)細(xì)節(jié)生成最終答案。
- 自動(dòng)化微調(diào)數(shù)據(jù)構(gòu)建:基于自動(dòng)化流程生成高質(zhì)量微調(diào)數(shù)據(jù)集,提高模型在特定任務(wù)上的表現(xiàn)。
LongRAG的技術(shù)原理
- 檢索增強(qiáng)生成(RAG):基于RAG框架,利用外部知識(shí)輔助語(yǔ)言模型生成回答。
- 全局信息和細(xì)節(jié)信息的整合:系統(tǒng)不僅關(guān)注局部事實(shí)細(xì)節(jié),還整合長(zhǎng)文本中的全局信息,以提供更全面的答案。
- 映射策略:將檢索到的片段映射回原始的長(zhǎng)文本,恢復(fù)上下文信息,從而提供更為準(zhǔn)確的背景結(jié)構(gòu)。
- 鏈?zhǔn)剿伎迹–oT):利用CoT作為全局線索,指導(dǎo)模型逐步關(guān)注與問(wèn)題相關(guān)的知識(shí),提升證據(jù)密度。
- 過(guò)濾策略:基于CoT的全局線索,過(guò)濾掉不相關(guān)的信息片段,保留關(guān)鍵事實(shí)細(xì)節(jié)。
LongRAG的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/QingFei1/LongRAG
- arXiv技術(shù)論文:https://arxiv.org/pdf/2410.18050
LongRAG的應(yīng)用場(chǎng)景
- 客戶(hù)服務(wù)與支持:在客戶(hù)服務(wù)領(lǐng)域,能夠有效理解并回答長(zhǎng)篇客戶(hù)查詢(xún)或歷史交互記錄,提供更準(zhǔn)確的解決方案。
- 醫(yī)療咨詢(xún):在醫(yī)療行業(yè)內(nèi)處理大量患者記錄和醫(yī)學(xué)文獻(xiàn),回答醫(yī)生或患者關(guān)于疾病、治療及藥物的復(fù)雜問(wèn)題。
- 法律咨詢(xún):幫助法律專(zhuān)業(yè)人士分析大量法律文件和案例,提供關(guān)于法律問(wèn)題的深入分析與建議。
- 教育與研究:在教育領(lǐng)域,作為輔助工具,幫助學(xué)生和研究人員深入理解長(zhǎng)篇學(xué)術(shù)文章和研究報(bào)告,解答相關(guān)問(wèn)題。
- 企業(yè)決策支持:分析市場(chǎng)研究報(bào)告、企業(yè)年報(bào)等長(zhǎng)篇文檔,為商業(yè)決策提供數(shù)據(jù)支持和洞察。