新智元报道
编辑:桃子 好困
【新智元导读】阿里昨晚放大招,正式开源通义DeepResearch,一举登顶碾压OpenAI、DeepSeek。模型、框架、方案全部开源,背后核心技术报告一同公开了。
阿里又双叒叕上大分了!
就在昨天,阿里旗下首个深度研究Agent模型——通义DeepResearch正式开源。
在多项权威基准上,通义DeepResearch狂飙SOTA,仅依靠30B参数(激活3B)就能大杀四方!
在号称人类最后的考试榜单HLE(Humanity's Last Exam)中,通义DeepResearch更是拿下了32.9%的最高分,超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),霸榜全球第一!
在OpenAI提出的超高难度BrowseComp榜单上,通义DeepResearch以43.4%的准确率领跑开源榜单。
值得一提的是,模型、框架、方案全面开源,开发者即可在Hugging Face、GitHub下载。
目前,GitHub项目已狂揽7.2k星。
项目地址:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
技术博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
这波充满了诚意的开源操作和出色性能,直接点燃了AI圈!
不仅引来广大网友们纷纷致谢,甚至Hugging Face联合创始人兼CEOClem Delangue和斯坦福NLP实验室等科技大V在第一时间进行转发关注。
不止于问答:AI的「研究员」时代
我们已经习惯了AI的有问必答,但如果问题本身就无比复杂呢?
AI Deep Research 给出了答案。它彻底告别了「一问一答」的模式,进化为一位真正的「研究员」。面对一个棘手的问题,它会自主规划一条完整的研究路径,像人类专家一样工作:
深度搜寻—多源交叉—结构化归纳—报告生成
你得到的,将是一份真正能解决问题的方案:论据有源可溯,过程清晰可复现,结论掷地有声。
通义DeepResearch既可以是你的资深研究员,也能是你的高效私人助手,其首要任务便是将宏大问题精巧地拆解为一系列逻辑清晰的子任务。
随后,它为每个环节自主调用代码分析、论文检索、网页访问等工具,以层层递进、自主循环的方式完成整个研究链路。
说多无用,不如看一些直观的演示。
假设你正在考虑出售房子,想要了解所在地区最近楼盘的销售情况,直接找通义DeepResearch——
我住在夏威夷的珍珠城,位于瓦胡岛上。
我知道附近有两处房产于2022年售出,分别是Akaikai Loop 2072号和Komo Mai Drive 2017号。
请找出这两处房产中2022年售价更高的那套,并告诉我其成交金额。
通义DeepResearch分了四步思考:
想要完成任务,第一步就是拆解指令,然后「联网」抓取数据,查询2022年房产销售记录,并提取相应的销售价格。
搜索之后,并非一下得出结果,而是在多个来源中,反复核查确认。
在生活规划和日常决策过程中,通义DeepResearch主要调用「联网搜索」工具,准确完成了任务。
过程
回答
再来看一个比较专的领域——法律,通义DeepResearch的表现又如何?
举个栗子,生活中的法律纠纷经常见,自己又不懂法,想要解决难题扔给AI就好了。
假设一个人恰好遇到了「原告要求退还出资,但自己又欠了一屁股债,还有很多债权人」的难题,那么原告是否违反资本维持原则?
在行动之前,通义DeepResearch大脑已经有了完整的构思,从问题拆解到工具使用。
接下来,就会看到通义用上了各种工具,获取法条、案例,并查找学术观点,最终收集所有可靠信息。
可以看到,通义执行任务的整个过程非常缜密,方便后期回溯。
过程
回答
再比如,有一个博士级跨学科的难题,自己拿不准,可以请教通义。
考虑这样一个「星座」的数学模型:在一小片天区内,每颗亮于某一特定星等的恒星,都与其最近的邻居(按二维欧几里得距离计算)连接一条边。
假设恒星在天空中均匀分布,那么平均每个星座(即连通子图)包含多少颗恒星?
此处,思考过程省略亿字......
但从通义的表现中,看得出每一步的计算和思考,都是建立在深度搜索、查询,反复验证的过程之上。
除了常用的搜索、浏览工具,它还借用「Python解释器」、「谷歌学术」等工具帮自己理解,最后给出详细的报告。
那么,通义DeepResearch团队是如何炼成「超级研究大脑」?深入技术细节,让我们一一拆解。
从零开始的数据炼金术
高质量数据,是大模型的核心,也仍然是智能体的生命之源。
通义DeepResearch团队在反复试错和探索下,构建出一套完备的「智能体合成数据」体系,贯穿预训练与后训练的完整训练链路。
这个策略的终极目标,是摆脱对昂贵且稀缺的人工标注数据的依赖,用「机器生产」的方式,源源不断地创造出比人类标注质量更高、规模更庞大的训练「教材」。
第一步:智能体增量预训练数据合成
在预训练过程中,传统模型更像是一次性填鸭式教学,仍然是「记住知识」。
团队首次引入了「Agentic CPT」(增量预训练) 的概念,教会模型「使用知识」,并且构造了一个能够持续进化和扩展的智能体预训练数据合成方法AgentFounder。
构建开放世界记忆
团队首先将海量知识文档、网页爬虫数据、知识图谱,以及模型后训练产生的思考轨迹和工具使用记录,全部汇集起来,构建了一个庞大的、以实体为核心的「开放世界知识记忆库」。
接着,从这个记忆库中抽取知识点,模拟真实世界中千奇百怪的场景,自动生成无数「问题-答案」对。
动作合成
更近一步,他们构建了三种类型的「动作数据」,具体包含规划、推理和决策动作。
这种方法让模型在离线状态下,就能探索海量的推理路径,而无需昂贵的在线API调用,大大提升了训练效率和深度。
尤其是,对于「决策动作」合成,会将轨迹重构为多步骤决策过程,充分探索有效的问题解决路径,让模型决策能力大幅提升。
第二步:全自动高质量数据合成
基础打好后,如何让模型「百尺竿头,更进一步」?
在后训练阶段,团队又开发了一套全自动的合成数据生成方案,直接产出比人工标注质量还高的数据集。
从最早的WebWalker,到后来更系统的WebSailor,WebShaper,最后的WebSailor V2这一方案不断迭代。
每一步,都Scaling了数据的质量和规模。
为了生成复杂的问答对数据,他们开创了一个全新流程:
确保数据真实
从真实网站数据中提取信息,用上随机游走构建知识图谱、表格数据融合等方式,保证了问题的「原汁原味」。
人为制造「迷雾」
接着,策略性地隐藏或模糊问题中的关键信息,或以其他方式增加问题的不确定性,来提升问题的难度。
团队甚至将回答难度,建模为一系列可控的「原子操作」,由此一来,可以精准控制问题的复杂度。
杜绝「抄近道」
为了防止模型「偷懒」找捷径,团队还基于集合论把信息搜索问题形式化建模。
这不仅能生成更高质量的问题,还解决了合成数据难以验证答案正确性的行业难题。
打造「博士级」难题
此外,还开发了一个专用于生成跨科学知识、多步推理的「博士级」研究难题的自动化数据流程。
它让一个配备网络搜索、学术检索等工具的Agent,在一个循环中不断深化和扩展问题,像滚雪球一样让任务难度可控升级。
两种推理模式,征服长任务
拥有了顶级的「教材」,还需要高效的学习和思考方式。
通义DeepResearch模型同时支持两种推理模式:一个是原生的ReAct Mode,另一个是基于上下文管理的Heavy Mode。
经典模式:ReAct Mode
在标准任务中,模型采用经典的ReAct(思考-行动-观察)模式,性能超乎想象。
它就像一个直觉敏锐的行动派,凭借128K的超长上下文,可以进行多轮次的快速交互,高效解决问题。
这种通用、可拓展的推理模式,尽管简单,但其是原生模型Agentic能力的直接体现。
深度模式:Heavy Mode
放眼全世界,谷歌、OpenAI、xAI等大厂都在「深度研究」上展开布局,紧追当前Agent热点。
但是,他们大都采用了「单窗口、线性累加」信息处理模式,弊端就是信息一多,「AI大脑」就不够用了。
因为,所有中间思路和检索到的信息,都堆积在了单一的上下文中。
在处理长程任务中,这种模式下的Agent就会面临「认知空间窒息」和「不可逆的噪声污染」挑战。
最终,AI推理能力下降,难以完成长程、复杂的研究任务。
当面对极端复杂、需要长远规划的研究任务时,「深度模式」(Heavy Mode)便会启动。
具体来说,模型会将一个庞大任务分解为一系列「研究轮次」:
在每一轮开始,Agent仅从上一轮的信息中提取最精华的结论,构建一个全新的、精简的工作空间。
在这个专注的工作空间里,Agent分析问题,将关键发现整合进一个不断演变的核心报告中。
最后,它决定下一步是继续收集信息,还是给出最终答案。
这种「综合-重构」的迭代过程,让Agent在执行超长期任务时,始终能保持清晰的「认知焦点」和高质量的推理能力。
更进一步,团队还提出了Research-Synthesis框架:
让多个IterResearch Agent并行研究同一问题,最后将其报告和结论整合,从而获得更全面、更准确的答案。
这一模式下,通义30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基准上,性能再破纪录。
AI智能体自我进化
端到端训练技术革新
如果说数据和推理模式是「招式」,那么训练流程就是「心法」。
团队打通了「Agentic CPT→ SFT→ Agentic RL」端到端全链路,首次提出了两阶段的智能体增量预训练,引领了智能体训练的新范式。
此外,其基于ReAct框架的强化学习环节,最能体现其深厚的系统工程能力。
团队坦言,通过强化学习构建高质量Agent,是一项复杂的系统工程挑战。
如果将开发过程视为一个「强化学习」循环,其组件中任何不稳定,或是鲁棒性不足之处,都可能导致错误的「奖励」信号。
那么,在强化学习过程中,团队如何在算法和基础设施上取得突破?
算法是核心
针对算法,基于GRPO定制优化,严格遵循on-policy训练范式,确保信号匹配模型能力。
与此同时,采取一个token级策略梯度损失函数,以优化训练目标。结合留一法 (leave-one-out) 策略,降低优势估计方差。
为了避免「格式崩溃」现象,团队还进行多种策略的负样本筛选,比如排除过长未能生成答案的样本。
此外,通过增大批次(batch size)和组规模(group size),维持较小方差,提供充足监督信号。
如上图动态指标显示,奖励持续震荡上升。同时,策略熵(policy entropy)保持较高水平,说明模型在持续探索进化,避免了过早收敛。
这得益于Web环境的非平稳性,形成了鲁棒自适应策略,无需额外正则化。
算法稳定搞定了,就一切万事大吉了吗?显然不是。
基础设施更关键
团队分享了一个至关重要的洞见:
算法固然重要,但并非成功的唯一决定因素。数据质量和训练环境的稳定性,可能是决定强化学习项目成败的更关键一环。
一个极具说服力的现象是,团队曾尝试直接在人工标注的BrowseComp测试集上训练模型来验证算法,结果其表现远不如使用自研合成数据训练的效果。
由此,他们推测,这是因为合成数据提供了一致性更高的潜在分布,使模型能进行更有效的学习和拟合。
相较之下,规模有限、含有更多噪声的人工数据,反而让模型难以提炼和泛化。
为了实现稳定、高效的强化学习,他们构建了一套全栈式的基础设施「护城河」:
仿真训练环境:利用离线维基百科和自定义工具套件,创建了一个经济高效、快速可控的模拟训练平台,摆脱了对昂贵且不稳定的实时Web API的依赖。
工具沙盒:通过缓存结果、失败重试、饱和式响应等机制,为智能体提供了快速鲁棒的交互环境,防止工具的偶然错误破坏其学习轨迹。
自动数据管理:在训练动态的指导下实时优化数据集,通过全自动数据合成和数据漏斗,形成「数据生成」与「模型训练」之间的正向循环。
On-policy的异步框架:基于rLLM实现,让多个智能体实例并行与环境交互,独立生成轨迹,极大提升了训练效率。
通过这一系列措施,阿里团队实现了智能体强化训练的「闭环」,让模型从一个基座模型开始,通过预训练、微调,最终在强化学习中实现自我进化。
这套全栈方案,恰恰为解决复杂任务的AI智能体训练树立了全新范式。
「高德行程规划」
和「律师小助理」双开花
过去半年,通义DeepResearch团队在Deep Research研发中不断深耕,每月一篇新作,全部斩获SOTA。
通义DeepResearch团队技术报告矩阵
除了技术报告诚意满满,通义DeepResearch团队一口气连发六篇技术报告,除了延续Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外,更是全新推出Agent系列的AgentFounder和AgentScaler!
这些重磅研究,并非是实验室的「花瓶」,它们早已走向落地,赋能阿里旗下多个产品。
比如,每个人都能感知的案例——高德「小高老师」。可能你还不知道的是,其背后就是通义DeepResearch提供的加持。
前段时间,高德暑期大版本V16,重点全面推出「地图导航+本地生活」场景。
通义团队和高德深度合作,在上述导航和本地生活场景中构建集成Deep Research能力的垂类智能体。
在规划决策中,通义团队基于Qwen模型微调构建精通地图领域的复杂「POI推理Agent」,一个超懂地图的智能助手。
它能一键get各种复杂需求,比如地理区域、参与者约束、交通约束、时间约束、POI属性等多维度信息。
举个例子,当你输入一长串要求——
我想在西湖边上找家评分4.5以上的浙菜馆,得有儿童餐,而且从地铁站走过去不能超过1公里。
AI能够立即挑出最合适的点,连怎么走都可以安排得明明白白。
再比如,假设想去奥森Citywalk,高德AI瞬间就能制定出三种攻略。
打开每一种攻略,可以看到,它会帮你做出详细的时间规划,贴心地推荐餐饮、游玩景点等。
通义出模型,高德出工具和Agent链路,由此打造出了「小德助手」惊艳的体验。
在法律领域,通义DeepResearch能力也深度融合到了「通义法睿」中,一个原生法律智能体。
它集问答、案例检索、合同审查、文书起草于一身,可以满足法律用户的需求。
升级后,基于创新性Agentic架构和迭代式规划(Iterative Planning),「通义法睿」DeepResearch大幅升级。
如今,它能够执行多步查询,依托真实判例、法规和解读,提供可追溯分析。
通过PK,「通义法睿」在三大核心维度——答案要点质量、案例引用质量、法条引用质量上,超越了OpenAI、Claude家的Deep Research。
总结
总而言之,通义DeepResearch的开源,无疑是AI社区的一大福音,人人可构建专属的深度研究智能体。
它证明了,轻量模型在「深度研究」领域中也能称霸。
它很慷慨,大方分享其背后技术秘方——合成数据+强化学习是训练模型的未来。
下一个爆款APP,或许有天,正是通义DeepResearch打造的。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.