在 Deepseek-R1 之后,我們對下一代搜索技術的思考。
原標題:DeepSearch 與 DeepResearch 的設計和實現
文章來源:人工智能學家
內容字數:17880字
深度搜索(Deep Search)和深度研究(DeepResearch)的崛起:2025年搜索新標準
本文總結了深度搜索(Deep Search)和深度研究(DeepResearch)的技術原理、實現細節以及兩者之間的區別,并對未來搜索技術發展趨勢進行了展望。
Deep Search 的核心概念及實現
Deep Search并非全新概念,其本質是迭代式的檢索增強生成(RAG)或多跳問答。其核心是通過搜索、閱讀和推理三個環節的循環往復,直到找到最佳答案或耗盡資源。與傳統的RAG系統不同,Deep Search執行多次迭代,需要明確的停止條件(例如token限制或失敗嘗試次數)。它可以被視為一個配備網絡工具的LLM Agent,通過分析觀察結果和操作記錄來決定下一步行動。
Deep Search 的實現依賴于:長上下文LLM、推理模型(如Deepseek-r1)、查詢重寫機制(利用embedding模型進行去重)、網頁抓取和內容處理(Jina Reader)、內存管理、答案評估機制以及預算控制策略。其中,FIFO隊列用于管理知識空白問題,優先處理能夠構建必要知識基礎的子問題。
DeepResearch:基于Deep Search 的長篇研究報告生成
DeepResearch是在Deep Search基礎上構建的用于生成長篇研究報告的框架。它從創建目錄開始,系統性地將 DeepSearch 應用于報告的每個部分,最終整合所有章節,并進行整體連貫性修訂。DeepResearch 的成功依賴于高質量的Deep Search引擎以及對報告結構、可視化元素和語言流暢性的有效控制。
文章作者分享了他們過去失敗的“Research”項目的經驗教訓,包括報告質量、搜索結果可靠性、可讀性和冗余問題等,這些經驗促進了他們對DeepSearch和DeepResearch的改進。
Deep Search vs DeepResearch
Deep Search是DeepResearch的構建模塊,DeepResearch則更關注高質量長篇研究報告的生成,涉及更復雜的系統工程,包括章節結構、可視化、語言流暢性等方面,這些與底層搜索功能并非直接相關。因此,文章作者更重視Deep Search 的發展。
Deep Search 的關鍵技術及實現細節
文章詳細介紹了Deep Search 的核心循環機制,包括系統提示詞的設計(使用XML標簽)、知識空白問題的處理(FIFO隊列)、查詢重寫、網頁內容爬取、內存管理、答案評估和預算控制等。其中,預算控制不僅是為了節省成本,更是為了鼓勵更深入的思考,并避免過早返回答案, “野獸模式”確保在預算耗盡前給出答案。
對未來搜索技術發展趨勢的展望
文章總結了Deep Search 開發過程中的經驗教訓,認為長上下文LLM、查詢擴展、網頁搜索和閱讀能力是必不可少的要素。向量模型在去重任務上表現出色,而Agent框架則顯得不必要。作者建議擁抱LLM的原生能力,避免被框架束縛,并強調多語言支持的重要性。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構