今日arXiv最熱NLP大模型論文:引入噪聲,可提升RAG檢索效果超30%??
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱NLP大模型論文:引入噪聲,可提升RAG檢索效果超30%??
關(guān)鍵字:解讀,報(bào)告,噪聲,答案,性能
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):8567字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)編輯 | 謝年年檢索增強(qiáng)生成(Retrieval-Augmented Generation,簡(jiǎn)稱RAG)系統(tǒng)的出現(xiàn),提高了LLMs回答生成的準(zhǔn)確性。它分為兩個(gè)部分:檢索與生成。檢索即利用檢索器從海量文檔中檢索出與查詢最相關(guān)或者最相似的段落,而生成則是LLMs針對(duì)混合查詢和檢索到的文檔生成響應(yīng)。
最近關(guān)于RAG的研究也非常多,特別是對(duì)檢索組件有非常多的優(yōu)秀工作。今天我們介紹的這篇文檔從一個(gè)特殊的角度出發(fā),討論檢索到的文檔對(duì)RAG系統(tǒng)性能的影響。
大家可能想說(shuō),這有什么好討論的,檢索到的文檔對(duì)性能的影響很直白啊,那肯定是與查詢?cè)较嚓P(guān),效果越好啊。
那如何為檢索文檔添加一些噪聲呢?也就是說(shuō)與查詢八竿子打不著的文檔,對(duì)系統(tǒng)性能的影響又如何呢?
從直覺(jué)上來(lái)說(shuō),噪聲應(yīng)該會(huì)對(duì)系統(tǒng)性能產(chǎn)生負(fù)面影響。
但是今天這篇文章給出的結(jié)果卻讓人大吃一驚!
噪聲文檔不僅沒(méi)有對(duì)系統(tǒng)性能造成負(fù)面影響,反而能夠顯著提高系統(tǒng)的準(zhǔn)確性,最高可達(dá)35%的改善。而那些與查詢相關(guān)的文檔可能是強(qiáng)有力的干擾項(xiàng),影響模型的性能。這一發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)信息檢索系統(tǒng)的常規(guī)理解,在這個(gè)新的范式下,傳統(tǒng)的檢索技術(shù)可能不是最優(yōu)的,需
原文鏈接:今日arXiv最熱NLP大模型論文:引入噪聲,可提升RAG檢索效果超30%??
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。