導讀: 阿里巴巴重磅發布并全面開源其深度研究Agent模型——通義DeepResearch,該模型在多項權威基準測試中表現卓越,超越了OpenAI和DeepSeek等業界領先模型。此次開源不僅包含模型、框架和解決方案,還一同公開了核心技術報告,預示著AI研究正在邁入“研究員”時代。

通義DeepResearch震撼登場,刷新AI研究新高度
昨日,阿里巴巴在其AI領域再掀波瀾,正式對外開放了其首個深度研究Agent模型——通義DeepResearch。該模型憑借其300億參數(激活30億)的配置,在多項權威評測榜單上取得了令人矚目的成績,甚至在號稱“人類最后考試”的人類最后考試(HLE)榜單中,以32.9%的得分力壓DeepSeek-V3.1(29.8%)和OpenAI的Deep Research(26.6%),榮登全球第一。在OpenAI提出的高難度BrowseComp榜單上,通義DeepResearch也以43.4%的準確率領跑開源模型。

此次開源的誠意十足,不僅提供了模型本身,還包括了其背后的框架和解決方案,開發者們可以在Hugging Face、GitHub等平臺便捷地獲取。開源項目迅速吸引了全球AI社區的關注,GitHub項目已獲得超過7.2k的星標,Hugging Face聯合創始人兼CEO Clem Delangue以及斯坦福NLP實驗室等知名科技人士也紛紛轉發點贊,足見其影響力。
項目地址:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
技術博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
超越“問答”范式,AI步入“研究員”時代
我們早已習慣了AI的“問答”模式,但當面對復雜問題時,AI能否像人類專家一樣進行深度研究?通義DeepResearch給出了肯定的答案。它徹底革新了傳統的交互方式,進化為一位真正的“研究員”。面對棘手難題,它能夠自主規劃研究路徑,模擬專家的工作流程:深度搜尋、多源交叉驗證、結構化歸納,最終生成一份詳實的研究報告。這份報告不僅論據有據、過程清晰可復現,結論也更具說服力。

通義DeepResearch能夠將宏大問題巧妙分解為一系列邏輯清晰的子任務,并自主調用代碼分析、論文檢索、網頁訪問等工具,通過層層遞進、自主循環的方式完成整個研究鏈路。無論是作為資深研究員還是高效私人助手,它都能勝任。
真實場景演示:房產銷售情況查詢
假設需要查詢特定房產的銷售情況,例如“我住在夏威夷的珍珠城,位于瓦胡島上。我知道附近有兩處房產于2022年售出,分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。請找出這兩處房產中2022年售價更高的那套,并告訴我其成交金額。” 通義DeepResearch會進行如下思考:
- 拆解指令,明確任務目標。
- 聯網搜索,獲取2022年房產銷售記錄及相應價格。
- 在多個信息源中進行反復核查與確認。
通過調用“聯網搜索”工具,通義DeepResearch準確完成了任務,展現了其在生活規劃和日常決策中的強大能力。
專業領域探索:法律糾紛分析
在法律領域,面對“原告要求退還出資,但自己又欠了一屁股債,還有很多債權人”的復雜情況,通義DeepResearch也能提供專業的分析。它會主動調用法條、案例、學術觀點等工具,進行深度信息搜集,并構建詳盡的分析報告。整個過程縝密且可追溯,為用戶提供可靠的法律支持。
跨學科難題攻克:星座數學模型
即使是博士級別的跨學科難題,如“在一個小片天區內,每顆亮于某一特定星等的恒星,都與其最近的鄰居(按二維歐幾里得距離計算)連接一條邊。假設恒星在天空中均勻分布,那么平均每個星座(即連通子圖)包含多少顆恒星?” 通義DeepResearch也能通過深度搜索、反復驗證,并借助Python解釋器、谷歌學術等工具,最終給出詳細且富有洞見的報告。

技術解析:通義DeepResearch的“超級研究大腦”是如何煉成的
數據合成:構建智能體訓練的“教材”
高質量數據是AI模型的核心,通義DeepResearch團隊構建了一套完備的“智能體合成數據”體系,貫穿預訓練和后訓練全過程。其目標是擺脫對昂貴、稀缺的人工標注數據的依賴,通過機器生產高質量、大規模的訓練數據。
智能體增量預訓練數據合成
在預訓練階段,團隊引入了“Agentic CPT”(增量預訓練)概念,并構建了AgentFounder方法,用于合成能夠持續進化和擴展的智能體預訓練數據。通過整合海量知識文檔、網頁數據、知識圖譜以及模型思考軌跡,構建了一個龐大的“開放世界知識記憶庫”。在此基礎上,模擬真實場景生成海量“問題-答案”對。此外,還合成了規劃、推理和決策三種類型的“動作數據”,提升了模型的離線探索能力和決策水平。
全自動高質量數據合成
在后訓練階段,團隊開發了一套全自動合成數據生成方案,產出比人工標注更高質量的數據。從WebWalker到WebSailor V2,該方案不斷迭代,提升數據質量和規模。為生成復雜問答對,流程包含:從真實網站提取信息,保證數據真實性;策略性隱藏關鍵信息,增加問題難度;將回答難度建模為可控的“原子操作”,精準控制復雜度;利用集合論形式化建模信息搜索問題,解決合成數據答案驗證難題。同時,還開發了專門生成跨科學知識、多步推理的“博士級”研究難題的自動化流程。
兩種推理模式:應對長任務挑戰
通義DeepResearch模型支持兩種推理模式:ReAct Mode和Heavy Mode,以應對不同復雜度的任務。
經典模式:ReAct Mode
在標準任務中,模型采用經典的ReAct(思考-行動-觀察)模式,配合128K的超長上下文,能夠進行多輪次快速交互,高效解決問題。這是原生模型Agentic能力的直接體現。

深度模式:Heavy Mode
面對極端復雜、需要長遠規劃的研究任務,Heavy Mode啟動。模型將龐大任務分解為“研究輪次”,每輪僅提取上一輪精華結論,構建精簡工作空間進行分析和整合。這種“綜合-重構”的迭代過程,確保Agent在執行超長期任務時始終保持清晰的“認知焦點”和高質量的推理能力。此外,Research-Synthesis框架允許多個IterResearch Agent并行研究,整合報告和結論,進一步提升答案的全面性和準確性。

AI智能體自我進化:端到端訓練技術革新
團隊打通了“Agentic CPT→ SFT→ Agentic RL”端到端全鏈路,提出了兩階段的智能體增量預訓練,引領了智能體訓練新范式。基于ReAct框架的強化學習環節,展現了其深厚的系統工程能力。
算法優化與策略梯度
在算法層面,基于GRPO定制優化,嚴格遵循on-policy訓練范式,采用token級策略梯度損失函數,并結合留一法降低優勢估計方差。為避免“格式崩潰”,進行負樣本篩選,并增大批次和組規模以維持較小方差,提供充足監督信號。動態指標顯示,獎勵持續上升,策略熵保持高水平,模型在持續探索進化。
基礎設施:構建強化學習的“護城河”
團隊強調,數據質量和訓練環境的穩定性是決定強化學習項目成敗的關鍵。他們構建了一套全棧式基礎設施,包括:經濟高效的仿真訓練環境,利用離線和自定義工具套件;為智能體提供快速魯棒交互的工具沙盒;實時優化數據集的自動數據管理;以及基于rLLM的On-policy異步框架,實現多個智能體實例并行交互。這些措施共同構成了智能體強化訓練的“閉環”,為解決復雜任務的AI智能體訓練樹立了全新范式。

落地應用:賦能高德地圖與通義法睿
通義DeepResearch團隊在研發過程中成果斐然,每月一篇新作,均斬獲SOTA。其研究成果已成功賦能阿里旗下多個產品。
高德“小高老師”:智能導航與本地生活助手
高德地圖的“小高老師”背后,就有通義DeepResearch的強大支持。通義團隊與高德深度合作,構建了精通地圖領域的復雜“POI推理Agent”,能夠一鍵滿足用戶在導航和本地生活場景下的各種復雜需求,如地理區域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。例如,用戶可以輕松找到“西湖邊上評分4.5以上的浙菜館,有兒童餐,且從地鐵站步行不超過1公里”,AI會提供最合適的推薦并規劃路線。在高德V16版本中,它還為Citywalk等場景提供了詳細的時間規劃和餐飲、景點推薦。
通義法睿:法律領域的智能研究員
在法律領域,通義DeepResearch能力深度融合進“通義法睿”,一個原生的法律智能體。它集問答、案例檢索、合同審查、文書起草于一身。通過Agentic架構和迭代式規劃,通義法睿能夠執行多步查詢,依托真實判例、法規和解讀,提供可追溯分析。在與OpenAI、Claude等模型的PK中,通義法睿在答案要點質量、案例引用質量、法條引用質量三大核心維度上均表現更優。

通義DeepResearch的開源,為AI社區帶來了福音,使得人人都有可能構建專屬的深度研究智能體。它證明了輕量級模型在“深度研究”領域的強大潛力,并揭示了合成數據與強化學習結合是未來模型訓練的重要方向。我們有理由相信,基于通義DeepResearch的下一代爆款應用即將誕生。