可適配不同模型
原標題:阿里多模態檢索智能體,自帶o1式思考過程!復雜問題逐步拆解,動態調整下一步檢索策略
文章來源:量子位
內容字數:4181字
OmniSearch:自適應規劃的多模態檢索智能體
近日,阿里通義實驗室發布了OmniSearch,這是一種新的多模態檢索增強生成(mRAG)方法,旨在模擬人類問題解決的思維方式。OmniSearch能夠將復雜問題逐步拆解,并根據當前的檢索結果和問題情境動態調整檢索策略,從而提升檢索效率和生成內容的準確性。
1. OmniSearch的核心架構
OmniSearch的設計克服了傳統mRAG方法的局限,具有以下幾個核心組件:
- 規劃智能體(Planning Agent):負責解析原始問題,并制定逐步的檢索策略。
- 檢索器(Retriever):執行圖像、文本及跨模態的檢索任務。
- 子問題求解器(Sub-question Solver):總結和解答檢索到的信息,具備高度可擴展性。
- 迭代推理與檢索(Iterative Reasoning and Retrieval):通過遞歸檢索和推理逐步接近問題的最終答案。
- 反饋循環機制(Feedback Loop):在每一步檢索和推理后反思檢索結果,以提高檢索的精確度。
2. Dyn-VQA數據集的構建與實驗評估
為評估OmniSearch的性能,研究團隊構建了新數據集Dyn-VQA,涵蓋1452個動態問題,主要分為以下三類:
- 答案快速變化的問題:如明星電影票房等,需要動態再檢索能力。
- 多模態知識需求的問題:需結合圖像和文本信息來獲取答案。
- 多跳問題:需要多個推理步驟以得出答案。
實驗結果顯示,OmniSearch在這三類問題上均表現優異,特別是在處理需要多步推理和快速變化答案的問題時,準確率顯著高于現有的mRAG方法。
3. 性能優勢與模塊化能力
在多個基準數據集上,OmniSearch達到了接近人類的表現。例如,在VQAv2數據集中,其準確率達到了70.34,超越了傳統mRAG方法。OmniSearch的模塊化設計允許靈活集成不同規模的多模態大語言模型(MLLM),為復雜問題提供解決方案。
整體而言,OmniSearch通過動態檢索規劃框架,突破了傳統mRAG的局限性,展現出強大的多模態檢索能力和靈活的模型集成特性,為未來的智能檢索系統提供了新的方向。
4. 進一步閱讀與資源
欲了解更多信息,可以訪問以下鏈接:
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...