原標題:Deepseek引發的RAG熱潮:一周出demo,半年用不好
文章來源:JioNLP
內容字數:4575字
Deepseek 熱潮與 RAG 的:中小團隊的 AI 部署困境
近年來,大型語言模型(LLM)如 Deepseek 迅速走紅,各行各業的領導者都渴望將其應用于自身業務,以實現 AI 智能化。然而,現實情況往往與理想相差甚遠,尤其是在資源有限的中小團隊中。本文將深入探討 Deepseek 部署過程中遇到的挑戰,特別是基于檢索增強生成 (RAG) 的系統開發中常見的七個失敗點,并提供一些可能的改進方向。
1. Deepseek 部署的現實挑戰
許多單位僅擁有一臺 GPU 服務器,難以部署 Deepseek 的完整版本。即使部署了參數量較小的版本,結合私有數據后,模型的幻覺和重復回答問題依然突出。因此,RAG 技術成為許多團隊的關注焦點,希望通過檢索相關文檔來提升模型的準確性和可靠性。
2. RAG 的
然而,基于一篇題為《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的論文,RAG 系統在實際應用中存在七個主要的失敗點:
內容缺失 (FP1): 所需信息不在文檔庫中,系統卻給出不相關的答案。
檢索 TopK 內容缺失 (FP2): 答案存在于文檔庫,但排名靠后未被檢索到。
未在上下文中 (FP3): 系統檢索到包含答案的文檔,但未將其納入上下文進行答案生成。
未提取 (FP4): 答案在上下文中,但 LLM 無法提取。
錯誤格式 (FP5): LLM 未按照要求的格式返回答案。
錯誤的特異性 (FP6): 答案過于籠統或過于具體,無法滿足用戶需求。
不完整 (FP7): 答案正確但缺少部分信息。
3. 改進方向
為了改善 RAG 系統的性能,論文提出了一些研究方向:
更長的上下文信息 (FP4): 增加 LLM 的上下文窗口大小。
語義緩存 (FP1): 利用緩存技術降低成本和延遲。
RAG 越獄 (FP5-FP7): 通過微調 LLM 來提升其基礎能力。
增加元信息 (FP2,FP4): 在檢索到的上下文中添加文件名和塊編號等元信息。
開源嵌入模型 (FP2-FP7): 利用開源嵌入模型處理小型文本。
RAG 系統持續校準 (FP2-FP7): 持續監控和調整 RAG 系統。
RAG 配置流水線 (FP1,FP2): 建立完善的 RAG 配置流水線。
離線評估技術 (FP2-FP4): 開發更有效的離線評估技術。
4. 總結
Deepseek 等大型語言模型的應用前景廣闊,但其部署和應用并非易事。中小團隊在利用 RAG 技術構建 AI 系統時,需要充分認識并解決上述七個失敗點,才能真正發揮 AI 的價值,避免“一周出 demo,半年用不好”的困境。持續學習和改進是 AI 應用成功的關鍵。
聯系作者
文章來源:JioNLP
作者微信:
作者簡介:用數學和程序解構世界。