大幅消滅思考過程中的“大抵或許應該”
原標題:Search版o1:推理過程會主動查資料,整體性能優于人類專家,清華人大出品
文章來源:量子位
內容字數:6107字
人大清華聯手打造Search-o1框架,大幅提升Qwen大模型推理能力
本文介紹了由人民大學和清華大學合作推出的新型搜索增強推理模型框架Search-o1,該框架顯著提升了基于開源Qwen-32B-Preview模型的推理能力。文章重點闡述了Search-o1的設計理念、核心組件以及實驗結果。
1. 問題與動機:o1模型推理的瓶頸
現有o1類模型在復雜推理任務中表現出色,但存在知識不足的缺陷。當推理步驟過長或模型知識儲備不足時,容易出現推理鏈斷裂和錯誤傳遞,最終影響答案準確性。研究發現,o1類模型在處理復雜問題時,平均每個推理過程會出現超過30次不確定詞匯,例如“或許”、“可能”等,這增加了推理復雜性,也使得人工驗證推理過程變得困難。因此,如何在推理過程中自動補充所需知識成為提升大型推理模型可信度的關鍵。
2. Search-o1框架的設計理念:模擬人類查閱資料的思考過程
Search-o1的解題思路是:在推理過程中,當模型遇到知識缺口時,主動暫停推理,通過搜索引擎檢索相關資料,獲取所需知識后繼續推理。這模擬了人類在思考問題時查閱資料的過程。框架的核心在于將Agentic搜索工作流整合到推理過程中,通過自主知識檢索,提升大型推理模型的可靠性和適用性。
3. Search-o1框架的核心組件
Search-o1框架主要包含兩個核心組件:
- Reason-in-Documents模塊:該模塊于主推理鏈,用于處理Agentic RAG機制檢索到的外部知識文檔。它會分析文檔,生成中間推理序列,并提取與當前推理步驟高度相關的精煉知識,以規定的格式整合到推理鏈中,確保推理過程簡潔、連貫和邏輯一致。
- Agentic RAG機制:該機制賦予模型在推理過程中自主決定何時檢索外部知識的能力。模型會生成包含特殊符號的搜索查詢,當檢測到特定符號時,觸發檢索函數獲取相關文檔,并由Reason-in-Documents模塊處理后整合回推理鏈。批量推理時,該機制可以并行處理多個問題,提高效率。
4. 實驗結果與結論
在廣泛的實驗中,Search-o1在11個復雜推理任務(包括科學問答、數學、代碼)中的10個任務上超越了原生推理和傳統RAG方法。在某些科學問答子領域,Search-o1甚至超越了人類專家。在開放域問答基準測試中,Search-o1在多跳QA任務上表現尤為突出,平均準確率提升近30%。
研究人員認為,Reason-in-Documents模塊和Agentic RAG機制的結合,有效解決了模型知識不足的問題,增強了推理模型的可信度和實用性,為構建更可靠、高效的智能系統奠定了基礎。Search-o1框架的開源,為相關研究提供了寶貴的資源。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破