国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

導讀： 阿里巴巴重磅發布并全面開源其深度研究Agent模型——通義DeepResearch，該模型在多項權威基準測試中表現卓越，超越了OpenAI和DeepSeek等業界領先模型。此次開源不僅包含模型、框架和解決方案，還一同公開了核心技術報告，預示著AI研究正在邁入“研究員”時代。

通義DeepResearch震撼登場，刷新AI研究新高度

昨日，阿里巴巴在其AI領域再掀波瀾，正式對外開放了其首個深度研究Agent模型——通義DeepResearch。該模型憑借其300億參數（激活30億）的配置，在多項權威評測榜單上取得了令人矚目的成績，甚至在號稱“人類最后考試”的人類最后考試（HLE）榜單中，以32.9%的得分力壓DeepSeek-V3.1（29.8%）和OpenAI的Deep Research（26.6%），榮登全球第一。在OpenAI提出的高難度BrowseComp榜單上，通義DeepResearch也以43.4%的準確率領跑開源模型。

此次開源的誠意十足，不僅提供了模型本身，還包括了其背后的框架和解決方案，開發者們可以在Hugging Face、GitHub等平臺便捷地獲取。開源項目迅速吸引了全球AI社區的關注，GitHub項目已獲得超過7.2k的星標，Hugging Face聯合創始人兼CEO Clem Delangue以及斯坦福NLP實驗室等知名科技人士也紛紛轉發點贊，足見其影響力。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

項目地址：https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址：https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技術博客：https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

超越“問答”范式，AI步入“研究員”時代

我們早已習慣了AI的“問答”模式，但當面對復雜問題時，AI能否像人類專家一樣進行深度研究？通義DeepResearch給出了肯定的答案。它徹底革新了傳統的交互方式，進化為一位真正的“研究員”。面對棘手難題，它能夠自主規劃研究路徑，模擬專家的工作流程：深度搜尋、多源交叉驗證、結構化歸納，最終生成一份詳實的研究報告。這份報告不僅論據有據、過程清晰可復現，結論也更具說服力。

通義DeepResearch能夠將宏大問題巧妙分解為一系列邏輯清晰的子任務，并自主調用代碼分析、論文檢索、網頁訪問等工具，通過層層遞進、自主循環的方式完成整個研究鏈路。無論是作為資深研究員還是高效私人助手，它都能勝任。

真實場景演示：房產銷售情況查詢

假設需要查詢特定房產的銷售情況，例如“我住在夏威夷的珍珠城，位于瓦胡島上。我知道附近有兩處房產于2022年售出，分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。請找出這兩處房產中2022年售價更高的那套，并告訴我其成交金額。” 通義DeepResearch會進行如下思考：

拆解指令，明確任務目標。
聯網搜索，獲取2022年房產銷售記錄及相應價格。
在多個信息源中進行反復核查與確認。

通過調用“聯網搜索”工具，通義DeepResearch準確完成了任務，展現了其在生活規劃和日常決策中的強大能力。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

專業領域探索：法律糾紛分析

在法律領域，面對“原告要求退還出資，但自己又欠了一屁股債，還有很多債權人”的復雜情況，通義DeepResearch也能提供專業的分析。它會主動調用法條、案例、學術觀點等工具，進行深度信息搜集，并構建詳盡的分析報告。整個過程縝密且可追溯，為用戶提供可靠的法律支持。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

跨學科難題攻克：星座數學模型

即使是博士級別的跨學科難題，如“在一個小片天區內，每顆亮于某一特定星等的恒星，都與其最近的鄰居（按二維歐幾里得距離計算）連接一條邊。假設恒星在天空中均勻分布，那么平均每個星座（即連通子圖）包含多少顆恒星？” 通義DeepResearch也能通過深度搜索、反復驗證，并借助Python解釋器、谷歌學術等工具，最終給出詳細且富有洞見的報告。

技術解析：通義DeepResearch的“超級研究大腦”是如何煉成的

數據合成：構建智能體訓練的“教材”

高質量數據是AI模型的核心，通義DeepResearch團隊構建了一套完備的“智能體合成數據”體系，貫穿預訓練和后訓練全過程。其目標是擺脫對昂貴、稀缺的人工標注數據的依賴，通過機器生產高質量、大規模的訓練數據。

智能體增量預訓練數據合成

在預訓練階段，團隊引入了“Agentic CPT”（增量預訓練）概念，并構建了AgentFounder方法，用于合成能夠持續進化和擴展的智能體預訓練數據。通過整合海量知識文檔、網頁數據、知識圖譜以及模型思考軌跡，構建了一個龐大的“開放世界知識記憶庫”。在此基礎上，模擬真實場景生成海量“問題-答案”對。此外，還合成了規劃、推理和決策三種類型的“動作數據”，提升了模型的離線探索能力和決策水平。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

全自動高質量數據合成

在后訓練階段，團隊開發了一套全自動合成數據生成方案，產出比人工標注更高質量的數據。從WebWalker到WebSailor V2，該方案不斷迭代，提升數據質量和規模。為生成復雜問答對，流程包含：從真實網站提取信息，保證數據真實性；策略性隱藏關鍵信息，增加問題難度；將回答難度建模為可控的“原子操作”，精準控制復雜度；利用集合論形式化建模信息搜索問題，解決合成數據答案驗證難題。同時，還開發了專門生成跨科學知識、多步推理的“博士級”研究難題的自動化流程。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

兩種推理模式：應對長任務挑戰

通義DeepResearch模型支持兩種推理模式：ReAct Mode和Heavy Mode，以應對不同復雜度的任務。

經典模式：ReAct Mode

在標準任務中，模型采用經典的ReAct（思考-行動-觀察）模式，配合128K的超長上下文，能夠進行多輪次快速交互，高效解決問題。這是原生模型Agentic能力的直接體現。

深度模式：Heavy Mode

面對極端復雜、需要長遠規劃的研究任務，Heavy Mode啟動。模型將龐大任務分解為“研究輪次”，每輪僅提取上一輪精華結論，構建精簡工作空間進行分析和整合。這種“綜合-重構”的迭代過程，確保Agent在執行超長期任務時始終保持清晰的“認知焦點”和高質量的推理能力。此外，Research-Synthesis框架允許多個IterResearch Agent并行研究，整合報告和結論，進一步提升答案的全面性和準確性。

AI智能體自我進化：端到端訓練技術革新

團隊打通了“Agentic CPT→ SFT→ Agentic RL”端到端全鏈路，提出了兩階段的智能體增量預訓練，引領了智能體訓練新范式。基于ReAct框架的強化學習環節，展現了其深厚的系統工程能力。

算法優化與策略梯度

在算法層面，基于GRPO定制優化，嚴格遵循on-policy訓練范式，采用token級策略梯度損失函數，并結合留一法降低優勢估計方差。為避免“格式崩潰”，進行負樣本篩選，并增大批次和組規模以維持較小方差，提供充足監督信號。動態指標顯示，獎勵持續上升，策略熵保持高水平，模型在持續探索進化。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

基礎設施：構建強化學習的“護城河”

團隊強調，數據質量和訓練環境的穩定性是決定強化學習項目成敗的關鍵。他們構建了一套全棧式基礎設施，包括：經濟高效的仿真訓練環境，利用離線和自定義工具套件；為智能體提供快速魯棒交互的工具沙盒；實時優化數據集的自動數據管理；以及基于rLLM的On-policy異步框架，實現多個智能體實例并行交互。這些措施共同構成了智能體強化訓練的“閉環”，為解決復雜任務的AI智能體訓練樹立了全新范式。

落地應用：賦能高德地圖與通義法睿

通義DeepResearch團隊在研發過程中成果斐然，每月一篇新作，均斬獲SOTA。其研究成果已成功賦能阿里旗下多個產品。

高德“小高老師”：智能導航與本地生活助手

高德地圖的“小高老師”背后，就有通義DeepResearch的強大支持。通義團隊與高德深度合作，構建了精通地圖領域的復雜“POI推理Agent”，能夠一鍵滿足用戶在導航和本地生活場景下的各種復雜需求，如地理區域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。例如，用戶可以輕松找到“西湖邊上評分4.5以上的浙菜館，有兒童餐，且從地鐵站步行不超過1公里”，AI會提供最合適的推薦并規劃路線。在高德V16版本中，它還為Citywalk等場景提供了詳細的時間規劃和餐飲、景點推薦。

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

通義法睿：法律領域的智能研究員

在法律領域，通義DeepResearch能力深度融合進“通義法睿”，一個原生的法律智能體。它集問答、案例檢索、合同審查、文書起草于一身。通過Agentic架構和迭代式規劃，通義法睿能夠執行多步查詢，依托真實判例、法規和解讀，提供可追溯分析。在與OpenAI、Claude等模型的PK中，通義法睿在答案要點質量、案例引用質量、法條引用質量三大核心維度上均表現更優。

通義DeepResearch的開源，為AI社區帶來了福音，使得人人都有可能構建專屬的深度研究智能體。它證明了輕量級模型在“深度研究”領域的強大潛力，并揭示了合成數據與強化學習結合是未來模型訓練的重要方向。我們有理由相信，基于通義DeepResearch的下一代爆款應用即將誕生。

閱讀原文

# AIGC動態 # SOTA # 一鍵搞定 # 全棧開源 # 博士級難題 # 阿里王牌Agent

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

通義DeepResearch震撼登場，刷新AI研究新高度

超越“問答”范式，AI步入“研究員”時代

真實場景演示：房產銷售情況查詢

專業領域探索：法律糾紛分析

跨學科難題攻克：星座數學模型

技術解析：通義DeepResearch的“超級研究大腦”是如何煉成的

數據合成：構建智能體訓練的“教材”

智能體增量預訓練數據合成

全自動高質量數據合成

兩種推理模式：應對長任務挑戰

經典模式：ReAct Mode

深度模式：Heavy Mode

AI智能體自我進化：端到端訓練技術革新

算法優化與策略梯度

基礎設施：構建強化學習的“護城河”

落地應用：賦能高德地圖與通義法睿

高德“小高老師”：智能導航與本地生活助手

通義法睿：法律領域的智能研究員

Gemini 調整限速，公益站倒了一片

建議收藏！Google+即夢+豆包三大官方AI繪圖提示詞手冊，終于有人整理全了！

相關文章

暫無評論

ChatGPT

玩虛擬模特？