AIGC動態歡迎閱讀
原標題:RAG新突破:塊狀注意力機制實現超低延遲檢索增強
關鍵字:模型,準確率,作者,首字,語言
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在工業場景中,往往會利用檢索技術來為大語言模型添加一些來自外部數據庫的知識文檔,從而增強大語言模型的回復可信度。一般來說,RAG 被公認是最有效的為 LLM 注入特定領域知識的方式。
然而,RAG 也有其不足之處。通常來說,在實際應用中,為確保能召回包含正確知識的文檔,對于每個用戶的查詢,會檢索多個文檔(一般在 5 到 30 個之間),并把這些文檔整合到輸入提示中供大語言模型處理。這樣一來,輸入提示的序列長度增加,使得推理效率大幅降低。具體來講,以首次生成標記的時間(TTFT)來衡量,RAG 大語言模型的推理延遲比非 RAG 大語言模型高很多。
由于數據庫中同一文檔經常會被不同 query 召回,大家很自然的會想到:是否能夠把已經算好的文檔表示(KV stat
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...