国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

AIGC動態2個月前更新 新智元
20 0 0

導讀: 阿里巴巴重磅發布并全面開源其深度研究Agent模型——通義DeepResearch,該模型在多項權威基準測試中表現卓越,超越了OpenAI和DeepSeek等業界領先模型。此次開源不僅包含模型、框架和解決方案,還一同公開了核心技術報告,預示著AI研究正在邁入“研究員”時代。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch震撼登場,刷新AI研究新高度

昨日,阿里巴巴在其AI領域再掀波瀾,正式對外開放了其首個深度研究Agent模型——通義DeepResearch。該模型憑借其300億參數(激活30億)的配置,在多項權威評測榜單上取得了令人矚目的成績,甚至在號稱“人類最后考試”的人類最后考試(HLE)榜單中,以32.9%的得分力壓DeepSeek-V3.1(29.8%)和OpenAI的Deep Research(26.6%),榮登全球第一。在OpenAI提出的高難度BrowseComp榜單上,通義DeepResearch也以43.4%的準確率領跑開源模型。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

此次開源的誠意十足,不僅提供了模型本身,還包括了其背后的框架和解決方案,開發者們可以在Hugging Face、GitHub等平臺便捷地獲取。開源項目迅速吸引了全球AI社區的關注,GitHub項目已獲得超過7.2k的星標,Hugging Face聯合創始人兼CEO Clem Delangue以及斯坦福NLP實驗室等知名科技人士也紛紛轉發點贊,足見其影響力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

項目地址:https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技術博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

超越“問答”范式,AI步入“研究員”時代

我們早已習慣了AI的“問答”模式,但當面對復雜問題時,AI能否像人類專家一樣進行深度研究?通義DeepResearch給出了肯定的答案。它徹底革新了傳統的交互方式,進化為一位真正的“研究員”。面對棘手難題,它能夠自主規劃研究路徑,模擬專家的工作流程:深度搜尋、多源交叉驗證、結構化歸納,最終生成一份詳實的研究報告。這份報告不僅論據有據、過程清晰可復現,結論也更具說服力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch能夠將宏大問題巧妙分解為一系列邏輯清晰的子任務,并自主調用代碼分析、論文檢索、網頁訪問等工具,通過層層遞進、自主循環的方式完成整個研究鏈路。無論是作為資深研究員還是高效私人助手,它都能勝任。

真實場景演示:房產銷售情況查詢

假設需要查詢特定房產的銷售情況,例如“我住在夏威夷的珍珠城,位于瓦胡島上。我知道附近有兩處房產于2022年售出,分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。請找出這兩處房產中2022年售價更高的那套,并告訴我其成交金額。” 通義DeepResearch會進行如下思考:

  1. 拆解指令,明確任務目標。
  2. 聯網搜索,獲取2022年房產銷售記錄及相應價格。
  3. 在多個信息源中進行反復核查與確認。

通過調用“聯網搜索”工具,通義DeepResearch準確完成了任務,展現了其在生活規劃和日常決策中的強大能力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

專業領域探索:法律糾紛分析

在法律領域,面對“原告要求退還出資,但自己又欠了一屁股債,還有很多債權人”的復雜情況,通義DeepResearch也能提供專業的分析。它會主動調用法條、案例、學術觀點等工具,進行深度信息搜集,并構建詳盡的分析報告。整個過程縝密且可追溯,為用戶提供可靠的法律支持。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

跨學科難題攻克:星座數學模型

即使是博士級別的跨學科難題,如“在一個小片天區內,每顆亮于某一特定星等的恒星,都與其最近的鄰居(按二維歐幾里得距離計算)連接一條邊。假設恒星在天空中均勻分布,那么平均每個星座(即連通子圖)包含多少顆恒星?” 通義DeepResearch也能通過深度搜索、反復驗證,并借助Python解釋器、谷歌學術等工具,最終給出詳細且富有洞見的報告。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

技術解析:通義DeepResearch的“超級研究大腦”是如何煉成的

數據合成:構建智能體訓練的“教材”

高質量數據是AI模型的核心,通義DeepResearch團隊構建了一套完備的“智能體合成數據”體系,貫穿預訓練和后訓練全過程。其目標是擺脫對昂貴、稀缺的人工標注數據的依賴,通過機器生產高質量、大規模的訓練數據。

智能體增量預訓練數據合成

在預訓練階段,團隊引入了“Agentic CPT”(增量預訓練)概念,并構建了AgentFounder方法,用于合成能夠持續進化和擴展的智能體預訓練數據。通過整合海量知識文檔、網頁數據、知識圖譜以及模型思考軌跡,構建了一個龐大的“開放世界知識記憶庫”。在此基礎上,模擬真實場景生成海量“問題-答案”對。此外,還合成了規劃、推理和決策三種類型的“動作數據”,提升了模型的離線探索能力和決策水平。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

全自動高質量數據合成

在后訓練階段,團隊開發了一套全自動合成數據生成方案,產出比人工標注更高質量的數據。從WebWalker到WebSailor V2,該方案不斷迭代,提升數據質量和規模。為生成復雜問答對,流程包含:從真實網站提取信息,保證數據真實性;策略性隱藏關鍵信息,增加問題難度;將回答難度建模為可控的“原子操作”,精準控制復雜度;利用集合論形式化建模信息搜索問題,解決合成數據答案驗證難題。同時,還開發了專門生成跨科學知識、多步推理的“博士級”研究難題的自動化流程。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

兩種推理模式:應對長任務挑戰

通義DeepResearch模型支持兩種推理模式:ReAct Mode和Heavy Mode,以應對不同復雜度的任務。

經典模式:ReAct Mode

在標準任務中,模型采用經典的ReAct(思考-行動-觀察)模式,配合128K的超長上下文,能夠進行多輪次快速交互,高效解決問題。這是原生模型Agentic能力的直接體現。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
深度模式:Heavy Mode

面對極端復雜、需要長遠規劃的研究任務,Heavy Mode啟動。模型將龐大任務分解為“研究輪次”,每輪僅提取上一輪精華結論,構建精簡工作空間進行分析和整合。這種“綜合-重構”的迭代過程,確保Agent在執行超長期任務時始終保持清晰的“認知焦點”和高質量的推理能力。此外,Research-Synthesis框架允許多個IterResearch Agent并行研究,整合報告和結論,進一步提升答案的全面性和準確性。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

AI智能體自我進化:端到端訓練技術革新

團隊打通了“Agentic CPT→ SFT→ Agentic RL”端到端全鏈路,提出了兩階段的智能體增量預訓練,引領了智能體訓練新范式。基于ReAct框架的強化學習環節,展現了其深厚的系統工程能力。

算法優化與策略梯度

在算法層面,基于GRPO定制優化,嚴格遵循on-policy訓練范式,采用token級策略梯度損失函數,并結合留一法降低優勢估計方差。為避免“格式崩潰”,進行負樣本篩選,并增大批次和組規模以維持較小方差,提供充足監督信號。動態指標顯示,獎勵持續上升,策略熵保持高水平,模型在持續探索進化。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

基礎設施:構建強化學習的“護城河”

團隊強調,數據質量和訓練環境的穩定性是決定強化學習項目成敗的關鍵。他們構建了一套全棧式基礎設施,包括:經濟高效的仿真訓練環境,利用離線和自定義工具套件;為智能體提供快速魯棒交互的工具沙盒;實時優化數據集的自動數據管理;以及基于rLLM的On-policy異步框架,實現多個智能體實例并行交互。這些措施共同構成了智能體強化訓練的“閉環”,為解決復雜任務的AI智能體訓練樹立了全新范式。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

落地應用:賦能高德地圖與通義法睿

通義DeepResearch團隊在研發過程中成果斐然,每月一篇新作,均斬獲SOTA。其研究成果已成功賦能阿里旗下多個產品。

高德“小高老師”:智能導航與本地生活助手

高德地圖的“小高老師”背后,就有通義DeepResearch的強大支持。通義團隊與高德深度合作,構建了精通地圖領域的復雜“POI推理Agent”,能夠一鍵滿足用戶在導航和本地生活場景下的各種復雜需求,如地理區域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。例如,用戶可以輕松找到“西湖邊上評分4.5以上的浙菜館,有兒童餐,且從地鐵站步行不超過1公里”,AI會提供最合適的推薦并規劃路線。在高德V16版本中,它還為Citywalk等場景提供了詳細的時間規劃和餐飲、景點推薦。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義法睿:法律領域的智能研究員

在法律領域,通義DeepResearch能力深度融合進“通義法睿”,一個原生的法律智能體。它集問答、案例檢索、合同審查、文書起草于一身。通過Agentic架構和迭代式規劃,通義法睿能夠執行多步查詢,依托真實判例、法規和解讀,提供可追溯分析。在與OpenAI、Claude等模型的PK中,通義法睿在答案要點質量、案例引用質量、法條引用質量三大核心維度上均表現更優。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch的開源,為AI社區帶來了福音,使得人人都有可能構建專屬的深度研究智能體。它證明了輕量級模型在“深度研究”領域的強大潛力,并揭示了合成數據與強化學習結合是未來模型訓練的重要方向。我們有理由相信,基于通義DeepResearch的下一代爆款應用即將誕生。

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        欧美男同性恋视频网站| 国产精品欧美精品| 欧美一区二区三区视频免费播放 | 久久综合色8888| 久草在线在线精品观看| 日韩免费一区二区三区在线播放| 免费高清不卡av| 国产日产欧美一区二区视频| 波多野结衣在线一区| 亚洲另类一区二区| 91精品久久久久久久99蜜桃| 国产一区啦啦啦在线观看| 中文字幕在线不卡视频| 欧洲日韩一区二区三区| 麻豆国产欧美一区二区三区| 国产婷婷色一区二区三区四区| 99精品视频在线观看免费| 亚洲成人激情社区| 久久精品欧美一区二区三区麻豆| 97精品久久久午夜一区二区三区 | 中文字幕一区二区三中文字幕| 91极品视觉盛宴| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲欧洲在线观看av| 91精品国产入口| 91麻豆国产福利在线观看| 日韩精品一二三| 中文字幕一区二区三区不卡| 制服丝袜亚洲网站| 色婷婷综合激情| 成人性生交大片免费看中文| 奇米四色…亚洲| 亚洲免费观看高清完整版在线观看| 欧美白人最猛性xxxxx69交| 在线观看日韩高清av| 国产69精品久久久久777| 日韩二区三区在线观看| 亚洲日本在线a| 欧美国产一区视频在线观看| 91精品国产入口| 欧美日韩一区二区欧美激情| 91日韩精品一区| 成人蜜臀av电影| 国产成人啪免费观看软件| 蜜臀久久99精品久久久画质超高清| 亚洲丝袜制服诱惑| 欧美激情一区二区| 久久中文娱乐网| 777久久久精品| 欧洲亚洲国产日韩| 色94色欧美sute亚洲13| www.久久久久久久久| 丁香网亚洲国际| 成人小视频免费在线观看| 国产精品一区在线观看乱码| 久久爱www久久做| 久久成人免费电影| 久久99日本精品| 黄色资源网久久资源365| 久久99久久精品| 国产麻豆视频一区二区| 国产精品亚洲午夜一区二区三区 | 欧美片网站yy| 欧美日本视频在线| 777亚洲妇女| 欧美成人欧美edvon| 日韩欧美国产午夜精品| 欧美不卡视频一区| 久久久久久毛片| 国产精品人成在线观看免费| 中文字幕免费不卡| 亚洲精品欧美综合四区| 首页国产丝袜综合| 首页国产欧美久久| 精品一区二区三区免费视频| 国产毛片精品国产一区二区三区| 成人免费毛片a| 欧美揉bbbbb揉bbbbb| 日韩一区二区三区精品视频| 久久久噜噜噜久久人人看| 中文字幕一区不卡| 亚洲国产日韩一级| 日韩精品国产欧美| 国内不卡的二区三区中文字幕| 成人免费视频一区| 欧美亚洲一区二区在线| 日韩免费观看2025年上映的电影 | 一区二区三区在线免费| 亚洲夂夂婷婷色拍ww47| 老色鬼精品视频在线观看播放| 高清国产午夜精品久久久久久| 91国产视频在线观看| 欧美大黄免费观看| 91女人视频在线观看| 555www色欧美视频| 日本一区二区三区久久久久久久久不 | 天堂成人免费av电影一区| 视频精品一区二区| 丰满少妇久久久久久久| 欧美日韩在线不卡| 久久久不卡网国产精品一区| 国产亚洲欧美色| 亚洲伊人色欲综合网| 韩国av一区二区三区四区| 欧洲av一区二区嗯嗯嗯啊| 欧美不卡视频一区| 亚洲摸摸操操av| 国产一二精品视频| 欧美日韩精品一区二区三区| 亚洲国产电影在线观看| 日本不卡的三区四区五区| 91在线看国产| 国产欧美一区视频| 精品亚洲国产成人av制服丝袜| 91福利在线播放| 综合久久久久久久| 国产成人av电影在线播放| 日韩精品一区在线| 日本免费新一区视频| 欧美日韩一区二区不卡| 亚洲女同ⅹxx女同tv| 成人激情免费视频| 国产午夜亚洲精品理论片色戒| 美脚の诱脚舐め脚责91| 欧美理论电影在线| 午夜精品一区二区三区三上悠亚| 色噜噜狠狠成人中文综合| 国产精品高潮呻吟久久| 成人毛片老司机大片| 中文字幕不卡的av| 成人高清免费观看| 国产精品毛片无遮挡高清| 懂色av一区二区三区免费看| 久久久久久久久99精品| 狠狠网亚洲精品| 久久久一区二区| 国产99久久久国产精品潘金| 国产欧美日韩视频一区二区| 成人丝袜视频网| 亚洲精品视频免费观看| 欧美在线高清视频| 偷偷要91色婷婷| 日韩欧美你懂的| 国产综合色精品一区二区三区| 久久精品亚洲精品国产欧美| 国产99久久久国产精品免费看| 国产精品久久久久久久久果冻传媒| heyzo一本久久综合| 一区二区三区影院| 欧美裸体bbwbbwbbw| 蜜桃久久精品一区二区| 国产色产综合色产在线视频| 97久久精品人人做人人爽50路| 亚洲综合免费观看高清在线观看| 欧美日韩免费观看一区二区三区| 婷婷六月综合亚洲| 精品区一区二区| eeuss鲁片一区二区三区| 亚洲午夜久久久久久久久久久| 8x福利精品第一导航| 国产精品一级片在线观看| 成人欧美一区二区三区小说 | 欧美一区二区精品在线| 经典三级在线一区| 中文字幕色av一区二区三区| 欧美日本韩国一区二区三区视频 | 欧美日韩高清一区二区三区| 九九**精品视频免费播放| 欧美国产综合色视频| 欧美三级在线看| 国产成人在线影院 | 日本一区二区不卡视频| 色噜噜久久综合| 国产在线视频精品一区| 一区二区成人在线观看| 精品国产第一区二区三区观看体验| av电影在线观看不卡| 麻豆免费精品视频| 一区二区三区高清不卡| 久久精品欧美一区二区三区不卡| 91黄视频在线观看| 国产91露脸合集magnet| 日日夜夜精品视频免费| 亚洲欧洲日产国码二区| 欧美xxxxxxxx| 欧美日韩美少妇| 色哟哟在线观看一区二区三区| 久久99日本精品| 日韩综合在线视频| 一区二区三区蜜桃| 国产精品久久久久久久久免费丝袜| 日韩一区二区电影网| 欧日韩精品视频| 99久久综合色| 国产成人av一区二区三区在线 | 精品久久久久久久人人人人传媒 | 99久久99久久精品免费看蜜桃| 蜜桃一区二区三区在线观看| 五月天欧美精品| 性感美女久久精品|