DeepSearch 與 DeepResearch 的設計和實現

AIGC動態5個月前發布人工智能學家

867 0 0

在 Deepseek-R1 之后，我們對下一代搜索技術的思考。

原標題：DeepSearch 與 DeepResearch 的設計和實現
文章來源：人工智能學家
內容字數：17880字

深度搜索（Deep Search）和深度研究（DeepResearch）的崛起：2025年搜索新標準

本文總結了深度搜索（Deep Search）和深度研究（DeepResearch）的技術原理、實現細節以及兩者之間的區別，并對未來搜索技術發展趨勢進行了展望。

Deep Search 的核心概念及實現
Deep Search并非全新概念，其本質是迭代式的檢索增強生成（RAG）或多跳問答。其核心是通過搜索、閱讀和推理三個環節的循環往復，直到找到最佳答案或耗盡資源。與傳統的RAG系統不同，Deep Search執行多次迭代，需要明確的停止條件（例如token限制或失敗嘗試次數）。它可以被視為一個配備網絡工具的LLM Agent，通過分析觀察結果和操作記錄來決定下一步行動。
Deep Search 的實現依賴于：長上下文LLM、推理模型（如Deepseek-r1）、查詢重寫機制（利用embedding模型進行去重）、網頁抓取和內容處理（Jina Reader）、內存管理、答案評估機制以及預算控制策略。其中，FIFO隊列用于管理知識空白問題，優先處理能夠構建必要知識基礎的子問題。
DeepResearch：基于Deep Search 的長篇研究報告生成
DeepResearch是在Deep Search基礎上構建的用于生成長篇研究報告的框架。它從創建目錄開始，系統性地將 DeepSearch 應用于報告的每個部分，最終整合所有章節，并進行整體連貫性修訂。DeepResearch 的成功依賴于高質量的Deep Search引擎以及對報告結構、可視化元素和語言流暢性的有效控制。
文章作者分享了他們過去失敗的“Research”項目的經驗教訓，包括報告質量、搜索結果可靠性、可讀性和冗余問題等，這些經驗促進了他們對DeepSearch和DeepResearch的改進。
Deep Search vs DeepResearch
Deep Search是DeepResearch的構建模塊，DeepResearch則更關注高質量長篇研究報告的生成，涉及更復雜的系統工程，包括章節結構、可視化、語言流暢性等方面，這些與底層搜索功能并非直接相關。因此，文章作者更重視Deep Search 的發展。
Deep Search 的關鍵技術及實現細節
文章詳細介紹了Deep Search 的核心循環機制，包括系統提示詞的設計（使用XML標簽）、知識空白問題的處理（FIFO隊列）、查詢重寫、網頁內容爬取、內存管理、答案評估和預算控制等。其中，預算控制不僅是為了節省成本，更是為了鼓勵更深入的思考，并避免過早返回答案， “野獸模式”確保在預算耗盡前給出答案。
對未來搜索技術發展趨勢的展望
文章總結了Deep Search 開發過程中的經驗教訓，認為長上下文LLM、查詢擴展、網頁搜索和閱讀能力是必不可少的要素。向量模型在去重任務上表現出色，而Agent框架則顯得不必要。作者建議擁抱LLM的原生能力，避免被框架束縛，并強調多語言支持的重要性。