网易首页 > 网易号 > 正文 申请入驻

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】阿里昨晚放大招,正式开源通义DeepResearch,一举登顶碾压OpenAI、DeepSeek。模型、框架、方案全部开源,背后核心技术报告一同公开了。

阿里又双叒叕上大分了!


就在昨天,阿里旗下首个深度研究Agent模型——通义DeepResearch正式开源。

在多项权威基准上,通义DeepResearch狂飙SOTA,仅依靠30B参数(激活3B)就能大杀四方!


在号称人类最后的考试榜单HLE(Humanity's Last Exam)中,通义DeepResearch更是拿下了32.9%的最高分,超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),霸榜全球第一!

在OpenAI提出的超高难度BrowseComp榜单上,通义DeepResearch以43.4%的准确率领跑开源榜单。


值得一提的是,模型、框架、方案全面开源,开发者即可在Hugging Face、GitHub下载。

目前,GitHub项目已狂揽7.2k星。

项目地址:https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技术博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

这波充满了诚意的开源操作和出色性能,直接点燃了AI圈!

不仅引来广大网友们纷纷致谢,甚至Hugging Face联合创始人兼CEOClem Delangue和斯坦福NLP实验室等科技大V在第一时间进行转发关注。




不止于问答:AI的「研究员」时代

我们已经习惯了AI的有问必答,但如果问题本身就无比复杂呢?

AI Deep Research 给出了答案。它彻底告别了「一问一答」的模式,进化为一位真正的「研究员」。面对一个棘手的问题,它会自主规划一条完整的研究路径,像人类专家一样工作:

深度搜寻—多源交叉—结构化归纳—报告生成

你得到的,将是一份真正能解决问题的方案:论据有源可溯,过程清晰可复现,结论掷地有声。


通义DeepResearch既可以是你的资深研究员,也能是你的高效私人助手,其首要任务便是将宏大问题精巧地拆解为一系列逻辑清晰的子任务。

随后,它为每个环节自主调用代码分析论文检索网页访问等工具,以层层递进、自主循环的方式完成整个研究链路。

说多无用,不如看一些直观的演示。

假设你正在考虑出售房子,想要了解所在地区最近楼盘的销售情况,直接找通义DeepResearch——

我住在夏威夷的珍珠城,位于瓦胡岛上。

我知道附近有两处房产于2022年售出,分别是Akaikai Loop 2072号和Komo Mai Drive 2017号。

请找出这两处房产中2022年售价更高的那套,并告诉我其成交金额。

通义DeepResearch分了四步思考:

想要完成任务,第一步就是拆解指令,然后「联网」抓取数据,查询2022年房产销售记录,并提取相应的销售价格。

搜索之后,并非一下得出结果,而是在多个来源中,反复核查确认。




在生活规划和日常决策过程中,通义DeepResearch主要调用「联网搜索」工具,准确完成了任务。


过程


回答

再来看一个比较专的领域——法律,通义DeepResearch的表现又如何?

举个栗子,生活中的法律纠纷经常见,自己又不懂法,想要解决难题扔给AI就好了。

假设一个人恰好遇到了「原告要求退还出资,但自己又欠了一屁股债,还有很多债权人」的难题,那么原告是否违反资本维持原则?

在行动之前,通义DeepResearch大脑已经有了完整的构思,从问题拆解到工具使用。


接下来,就会看到通义用上了各种工具,获取法条、案例,并查找学术观点,最终收集所有可靠信息。





可以看到,通义执行任务的整个过程非常缜密,方便后期回溯。


过程


回答

再比如,有一个博士级跨学科的难题,自己拿不准,可以请教通义。

考虑这样一个「星座」的数学模型:在一小片天区内,每颗亮于某一特定星等的恒星,都与其最近的邻居(按二维欧几里得距离计算)连接一条边。

假设恒星在天空中均匀分布,那么平均每个星座(即连通子图)包含多少颗恒星?

此处,思考过程省略亿字......


但从通义的表现中,看得出每一步的计算和思考,都是建立在深度搜索、查询,反复验证的过程之上。

除了常用的搜索、浏览工具,它还借用「Python解释器」、「谷歌学术」等工具帮自己理解,最后给出详细的报告。

那么,通义DeepResearch团队是如何炼成「超级研究大脑」?深入技术细节,让我们一一拆解。

从零开始的数据炼金术

高质量数据,是大模型的核心,也仍然是智能体的生命之源。

通义DeepResearch团队在反复试错和探索下,构建出一套完备的「智能体合成数据」体系,贯穿预训练与后训练的完整训练链路。

这个策略的终极目标,是摆脱对昂贵且稀缺的人工标注数据的依赖,用「机器生产」的方式,源源不断地创造出比人类标注质量更高、规模更庞大的训练「教材」。

第一步:智能体增量预训练数据合成

在预训练过程中,传统模型更像是一次性填鸭式教学,仍然是「记住知识」。

团队首次引入了「Agentic CPT」(增量预训练) 的概念,教会模型「使用知识」,并且构造了一个能够持续进化和扩展的智能体预训练数据合成方法AgentFounder。

  • 构建开放世界记忆

团队首先将海量知识文档、网页爬虫数据、知识图谱,以及模型后训练产生的思考轨迹和工具使用记录,全部汇集起来,构建了一个庞大的、以实体为核心的「开放世界知识记忆库」。

接着,从这个记忆库中抽取知识点,模拟真实世界中千奇百怪的场景,自动生成无数「问题-答案」对。


  • 动作合成

更近一步,他们构建了三种类型的「动作数据」,具体包含规划、推理和决策动作。

这种方法让模型在离线状态下,就能探索海量的推理路径,而无需昂贵的在线API调用,大大提升了训练效率和深度。

尤其是,对于「决策动作」合成,会将轨迹重构为多步骤决策过程,充分探索有效的问题解决路径,让模型决策能力大幅提升。

第二步:全自动高质量数据合成

基础打好后,如何让模型「百尺竿头,更进一步」?

在后训练阶段,团队又开发了一套全自动的合成数据生成方案,直接产出比人工标注质量还高的数据集。

从最早的WebWalker,到后来更系统的WebSailor,WebShaper,最后的WebSailor V2这一方案不断迭代。

每一步,都Scaling了数据的质量和规模。

为了生成复杂的问答对数据,他们开创了一个全新流程:

  • 确保数据真实

从真实网站数据中提取信息,用上随机游走构建知识图谱、表格数据融合等方式,保证了问题的「原汁原味」。

  • 人为制造「迷雾」

接着,策略性地隐藏或模糊问题中的关键信息,或以其他方式增加问题的不确定性,来提升问题的难度。

团队甚至将回答难度,建模为一系列可控的「原子操作」,由此一来,可以精准控制问题的复杂度。

  • 杜绝「抄近道」

为了防止模型「偷懒」找捷径,团队还基于集合论把信息搜索问题形式化建模。

这不仅能生成更高质量的问题,还解决了合成数据难以验证答案正确性的行业难题。

  • 打造「博士级」难题

此外,还开发了一个专用于生成跨科学知识、多步推理的「博士级」研究难题的自动化数据流程。

它让一个配备网络搜索、学术检索等工具的Agent,在一个循环中不断深化和扩展问题,像滚雪球一样让任务难度可控升级。

两种推理模式,征服长任务

拥有了顶级的「教材」,还需要高效的学习和思考方式。

通义DeepResearch模型同时支持两种推理模式:一个是原生的ReAct Mode,另一个是基于上下文管理的Heavy Mode。

经典模式:ReAct Mode

在标准任务中,模型采用经典的ReAct(思考-行动-观察)模式,性能超乎想象。

它就像一个直觉敏锐的行动派,凭借128K的超长上下文,可以进行多轮次的快速交互,高效解决问题。

这种通用、可拓展的推理模式,尽管简单,但其是原生模型Agentic能力的直接体现。

深度模式:Heavy Mode

放眼全世界,谷歌、OpenAI、xAI等大厂都在「深度研究」上展开布局,紧追当前Agent热点。

但是,他们大都采用了「单窗口、线性累加」信息处理模式,弊端就是信息一多,「AI大脑」就不够用了。

因为,所有中间思路和检索到的信息,都堆积在了单一的上下文中。

在处理长程任务中,这种模式下的Agent就会面临「认知空间窒息」和「不可逆的噪声污染」挑战。

最终,AI推理能力下降,难以完成长程、复杂的研究任务。

当面对极端复杂、需要长远规划的研究任务时,「深度模式」(Heavy Mode)便会启动。

具体来说,模型会将一个庞大任务分解为一系列「研究轮次」:

  • 在每一轮开始,Agent仅从上一轮的信息中提取最精华的结论,构建一个全新的、精简的工作空间。

  • 在这个专注的工作空间里,Agent分析问题,将关键发现整合进一个不断演变的核心报告中。

  • 最后,它决定下一步是继续收集信息,还是给出最终答案。

这种「综合-重构」的迭代过程,让Agent在执行超长期任务时,始终能保持清晰的「认知焦点」和高质量的推理能力。


更进一步,团队还提出了Research-Synthesis框架:

让多个IterResearch Agent并行研究同一问题,最后将其报告和结论整合,从而获得更全面、更准确的答案。

这一模式下,通义30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基准上,性能再破纪录。


AI智能体自我进化

端到端训练技术革新

如果说数据和推理模式是「招式」,那么训练流程就是「心法」。

团队打通了「Agentic CPT→ SFT→ Agentic RL」端到端全链路,首次提出了两阶段的智能体增量预训练,引领了智能体训练的新范式。

此外,其基于ReAct框架的强化学习环节,最能体现其深厚的系统工程能力。


团队坦言,通过强化学习构建高质量Agent,是一项复杂的系统工程挑战。

如果将开发过程视为一个「强化学习」循环,其组件中任何不稳定,或是鲁棒性不足之处,都可能导致错误的「奖励」信号。

那么,在强化学习过程中,团队如何在算法和基础设施上取得突破?

  • 算法是核心

针对算法,基于GRPO定制优化,严格遵循on-policy训练范式,确保信号匹配模型能力。

与此同时,采取一个token级策略梯度损失函数,以优化训练目标。结合留一法 (leave-one-out) 策略,降低优势估计方差。

为了避免「格式崩溃」现象,团队还进行多种策略的负样本筛选,比如排除过长未能生成答案的样本。

此外,通过增大批次(batch size)和组规模(group size),维持较小方差,提供充足监督信号。


如上图动态指标显示,奖励持续震荡上升。同时,策略熵(policy entropy)保持较高水平,说明模型在持续探索进化,避免了过早收敛。

这得益于Web环境的非平稳性,形成了鲁棒自适应策略,无需额外正则化。

算法稳定搞定了,就一切万事大吉了吗?显然不是。

  • 基础设施更关键

团队分享了一个至关重要的洞见:

算法固然重要,但并非成功的唯一决定因素。数据质量和训练环境的稳定性,可能是决定强化学习项目成败的更关键一环。

一个极具说服力的现象是,团队曾尝试直接在人工标注的BrowseComp测试集上训练模型来验证算法,结果其表现远不如使用自研合成数据训练的效果。

由此,他们推测,这是因为合成数据提供了一致性更高的潜在分布,使模型能进行更有效的学习和拟合。

相较之下,规模有限、含有更多噪声的人工数据,反而让模型难以提炼和泛化。


为了实现稳定、高效的强化学习,他们构建了一套全栈式的基础设施「护城河」:

  • 仿真训练环境:利用离线维基百科和自定义工具套件,创建了一个经济高效、快速可控的模拟训练平台,摆脱了对昂贵且不稳定的实时Web API的依赖。

  • 工具沙盒:通过缓存结果、失败重试、饱和式响应等机制,为智能体提供了快速鲁棒的交互环境,防止工具的偶然错误破坏其学习轨迹。

  • 自动数据管理:在训练动态的指导下实时优化数据集,通过全自动数据合成和数据漏斗,形成「数据生成」与「模型训练」之间的正向循环。

  • On-policy的异步框架:基于rLLM实现,让多个智能体实例并行与环境交互,独立生成轨迹,极大提升了训练效率。

通过这一系列措施,阿里团队实现了智能体强化训练的「闭环」,让模型从一个基座模型开始,通过预训练、微调,最终在强化学习中实现自我进化。

这套全栈方案,恰恰为解决复杂任务的AI智能体训练树立了全新范式。

「高德行程规划」

和「律师小助理」双开花

过去半年,通义DeepResearch团队在Deep Research研发中不断深耕,每月一篇新作,全部斩获SOTA。


通义DeepResearch团队技术报告矩阵

除了技术报告诚意满满,通义DeepResearch团队一口气连发六篇技术报告,除了延续Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外,更是全新推出Agent系列的AgentFounder和AgentScaler!

这些重磅研究,并非是实验室的「花瓶」,它们早已走向落地,赋能阿里旗下多个产品。

比如,每个人都能感知的案例——高德「小高老师」。可能你还不知道的是,其背后就是通义DeepResearch提供的加持。


前段时间,高德暑期大版本V16,重点全面推出「地图导航+本地生活」场景。

通义团队和高德深度合作,在上述导航和本地生活场景中构建集成Deep Research能力的垂类智能体。

在规划决策中,通义团队基于Qwen模型微调构建精通地图领域的复杂「POI推理Agent」,一个超懂地图的智能助手。

它能一键get各种复杂需求,比如地理区域、参与者约束、交通约束、时间约束、POI属性等多维度信息。


举个例子,当你输入一长串要求——

我想在西湖边上找家评分4.5以上的浙菜馆,得有儿童餐,而且从地铁站走过去不能超过1公里。

AI能够立即挑出最合适的点,连怎么走都可以安排得明明白白。

再比如,假设想去奥森Citywalk,高德AI瞬间就能制定出三种攻略。

打开每一种攻略,可以看到,它会帮你做出详细的时间规划,贴心地推荐餐饮、游玩景点等。


通义出模型,高德出工具和Agent链路,由此打造出了「小德助手」惊艳的体验。

在法律领域,通义DeepResearch能力也深度融合到了「通义法睿」中,一个原生法律智能体。

它集问答、案例检索、合同审查、文书起草于一身,可以满足法律用户的需求。

升级后,基于创新性Agentic架构和迭代式规划(Iterative Planning),「通义法睿」DeepResearch大幅升级。

如今,它能够执行多步查询,依托真实判例、法规和解读,提供可追溯分析。

通过PK,「通义法睿」在三大核心维度——答案要点质量、案例引用质量、法条引用质量上,超越了OpenAI、Claude家的Deep Research。


总结

总而言之,通义DeepResearch的开源,无疑是AI社区的一大福音,人人可构建专属的深度研究智能体。

它证明了,轻量模型在「深度研究」领域中也能称霸。

它很慷慨,大方分享其背后技术秘方——合成数据+强化学习是训练模型的未来。

下一个爆款APP,或许有天,正是通义DeepResearch打造的。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
短短2年时间,砸神像,号称八字最硬的网红,面相却变了

短短2年时间,砸神像,号称八字最硬的网红,面相却变了

寒士之言本尊
2025-08-02 15:12:06
俄罗斯女议员:如果对华免签,将有大量中国男性涌入俄联邦找对象

俄罗斯女议员:如果对华免签,将有大量中国男性涌入俄联邦找对象

小虎新车推荐员
2025-09-17 16:05:56
又火了,驻京办到底是一个怎样的神秘存在?

又火了,驻京办到底是一个怎样的神秘存在?

环球通信
2025-09-12 21:24:41
别嘴硬!那种生理性喜欢,一辈子真没几次

别嘴硬!那种生理性喜欢,一辈子真没几次

加油丁小文
2025-09-10 05:00:03
中国成功收复南海第一大岛礁,面积超8400平方公里,周围全是宝藏

中国成功收复南海第一大岛礁,面积超8400平方公里,周围全是宝藏

小lu侃侃而谈
2025-09-17 19:33:39
评论员:维尼修斯需要接受一个现实,现在的皇马是姆巴佩的天下

评论员:维尼修斯需要接受一个现实,现在的皇马是姆巴佩的天下

直播吧
2025-09-17 20:07:26
天津市内一小区被盗!

天津市内一小区被盗!

天津生活通
2025-09-18 07:32:00
here we go!穆帅上任!打脸费内巴切,人格魅力大,欧冠带队出线

here we go!穆帅上任!打脸费内巴切,人格魅力大,欧冠带队出线

阿泰希特
2025-09-18 10:19:48
美联储点阵图暗示年内或再降息2次,上调今年经济增速至1.6%

美联储点阵图暗示年内或再降息2次,上调今年经济增速至1.6%

澎湃新闻
2025-09-18 07:12:28
给钱也不卖给中国,日本和德国联合断供高铁车轮,毁了上亿订单

给钱也不卖给中国,日本和德国联合断供高铁车轮,毁了上亿订单

南权先生
2025-09-17 10:25:49
为什么伺候老人要轮着来?我用亲身经历告诉你:太善良是会吃亏的

为什么伺候老人要轮着来?我用亲身经历告诉你:太善良是会吃亏的

小马达情感故事
2025-09-16 19:00:03
释智定:比释永信更奢靡,住别墅,僧袍里穿黑丝,两个和尚老公

释智定:比释永信更奢靡,住别墅,僧袍里穿黑丝,两个和尚老公

诗意世界
2025-09-18 11:57:15
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
广州多区发布台风预警信号,预计19日至21日将有明显风雨过程

广州多区发布台风预警信号,预计19日至21日将有明显风雨过程

鲁中晨报
2025-09-18 10:47:08
别装了,酒店养不起行政酒廊了

别装了,酒店养不起行政酒廊了

闻旅派
2025-09-17 17:05:31
连爆大冷世界第2第5第13第14第16都出局了,16强决出9席中国仅3席

连爆大冷世界第2第5第13第14第16都出局了,16强决出9席中国仅3席

观察鉴娱
2025-09-18 09:51:53
当初掏空家底,举债120亿收购沃尔沃,如今15年过去,吉利赚了多少

当初掏空家底,举债120亿收购沃尔沃,如今15年过去,吉利赚了多少

杨哥历史
2025-04-09 10:28:49
高中三年,哪一年的成绩会定型?家里有高中生的,建议好好看看

高中三年,哪一年的成绩会定型?家里有高中生的,建议好好看看

好爸育儿
2025-09-18 08:39:11
日本竟然拒绝美国,理由充分,不给中国加税

日本竟然拒绝美国,理由充分,不给中国加税

心灵得以滋养
2025-09-18 11:12:55
时隔近8年,大卫-路易斯再次在欧冠比赛中担任首发

时隔近8年,大卫-路易斯再次在欧冠比赛中担任首发

懂球帝
2025-09-18 01:16:12
2025-09-18 13:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13471文章数 66156关注度
往期回顾 全部

科技要闻

DeepSeek称R1训练费200万,不依赖蒸馏对手

头条要闻

上海网红面包店销毁面包:不打折卖 喷消毒液防被捡走

头条要闻

上海网红面包店销毁面包:不打折卖 喷消毒液防被捡走

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

杨丞琳庆祝结婚6周年,与李荣浩撒糖

财经要闻

美联储重启降息!新任理事投了反对票

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

健康
时尚
本地
数码
军事航空

内分泌科专家破解身高八大谣言

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

数码要闻

迷你无人机首次1英寸大底!大疆DJI MINI 5 PRO图赏

军事要闻

以色列攻入加沙城 多国寻求将其逐出联合国

无障碍浏览 进入关怀版