Search版o1:推理過程會主動查資料,整體性能優(yōu)于人類專家,清華人大出品
大幅消滅思考過程中的“大抵或許應(yīng)該”

原標(biāo)題:Search版o1:推理過程會主動查資料,整體性能優(yōu)于人類專家,清華人大出品
文章來源:量子位
內(nèi)容字?jǐn)?shù):6107字
人大清華聯(lián)手打造Search-o1框架,大幅提升Qwen大模型推理能力
本文介紹了由人民大學(xué)和清華大學(xué)合作推出的新型搜索增強推理模型框架Search-o1,該框架顯著提升了基于開源Qwen-32B-Preview模型的推理能力。文章重點闡述了Search-o1的設(shè)計理念、核心組件以及實驗結(jié)果。
1. 問題與動機:o1模型推理的瓶頸
現(xiàn)有o1類模型在復(fù)雜推理任務(wù)中表現(xiàn)出色,但存在知識不足的缺陷。當(dāng)推理步驟過長或模型知識儲備不足時,容易出現(xiàn)推理鏈斷裂和錯誤傳遞,最終影響答案準(zhǔn)確性。研究發(fā)現(xiàn),o1類模型在處理復(fù)雜問題時,平均每個推理過程會出現(xiàn)超過30次不確定詞匯,例如“或許”、“可能”等,這增加了推理復(fù)雜性,也使得人工驗證推理過程變得困難。因此,如何在推理過程中自動補充所需知識成為提升大型推理模型可信度的關(guān)鍵。
2. Search-o1框架的設(shè)計理念:模擬人類查閱資料的思考過程
Search-o1的解題思路是:在推理過程中,當(dāng)模型遇到知識缺口時,主動暫停推理,通過搜索引擎檢索相關(guān)資料,獲取所需知識后繼續(xù)推理。這模擬了人類在思考問題時查閱資料的過程。框架的核心在于將Agentic搜索工作流整合到推理過程中,通過自主知識檢索,提升大型推理模型的可靠性和適用性。
3. Search-o1框架的核心組件
Search-o1框架主要包含兩個核心組件:
- Reason-in-Documents模塊:該模塊于主推理鏈,用于處理Agentic RAG機制檢索到的外部知識文檔。它會分析文檔,生成中間推理序列,并提取與當(dāng)前推理步驟高度相關(guān)的精煉知識,以規(guī)定的格式整合到推理鏈中,確保推理過程簡潔、連貫和邏輯一致。
- Agentic RAG機制:該機制賦予模型在推理過程中自主決定何時檢索外部知識的能力。模型會生成包含特殊符號的搜索查詢,當(dāng)檢測到特定符號時,觸發(fā)檢索函數(shù)獲取相關(guān)文檔,并由Reason-in-Documents模塊處理后整合回推理鏈。批量推理時,該機制可以并行處理多個問題,提高效率。
4. 實驗結(jié)果與結(jié)論
在廣泛的實驗中,Search-o1在11個復(fù)雜推理任務(wù)(包括科學(xué)問答、數(shù)學(xué)、代碼)中的10個任務(wù)上超越了原生推理和傳統(tǒng)RAG方法。在某些科學(xué)問答子領(lǐng)域,Search-o1甚至超越了人類專家。在開放域問答基準(zhǔn)測試中,Search-o1在多跳QA任務(wù)上表現(xiàn)尤為突出,平均準(zhǔn)確率提升近30%。
研究人員認(rèn)為,Reason-in-Documents模塊和Agentic RAG機制的結(jié)合,有效解決了模型知識不足的問題,增強了推理模型的可信度和實用性,為構(gòu)建更可靠、高效的智能系統(tǒng)奠定了基礎(chǔ)。Search-o1框架的開源,為相關(guān)研究提供了寶貴的資源。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號