RAG新突破:塊狀注意力機(jī)制實(shí)現(xiàn)超低延遲檢索增強(qiáng)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:RAG新突破:塊狀注意力機(jī)制實(shí)現(xiàn)超低延遲檢索增強(qiáng)
關(guān)鍵字:模型,準(zhǔn)確率,作者,首字,語(yǔ)言
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在工業(yè)場(chǎng)景中,往往會(huì)利用檢索技術(shù)來為大語(yǔ)言模型添加一些來自外部數(shù)據(jù)庫(kù)的知識(shí)文檔,從而增強(qiáng)大語(yǔ)言模型的回復(fù)可信度。一般來說,RAG 被公認(rèn)是最有效的為 LLM 注入特定領(lǐng)域知識(shí)的方式。
然而,RAG 也有其不足之處。通常來說,在實(shí)際應(yīng)用中,為確保能召回包含正確知識(shí)的文檔,對(duì)于每個(gè)用戶的查詢,會(huì)檢索多個(gè)文檔(一般在 5 到 30 個(gè)之間),并把這些文檔整合到輸入提示中供大語(yǔ)言模型處理。這樣一來,輸入提示的序列長(zhǎng)度增加,使得推理效率大幅降低。具體來講,以首次生成標(biāo)記的時(shí)間(TTFT)來衡量,RAG 大語(yǔ)言模型的推理延遲比非 RAG 大語(yǔ)言模型高很多。
由于數(shù)據(jù)庫(kù)中同一文檔經(jīng)常會(huì)被不同 query 召回,大家很自然的會(huì)想到:是否能夠把已經(jīng)算好的文檔表示(KV stat
原文鏈接:RAG新突破:塊狀注意力機(jī)制實(shí)現(xiàn)超低延遲檢索增強(qiáng)
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: