网易首页 > 网易号 > 正文 申请入驻

DeepDiver-V2来了,华为开源原生多智能体系统,“团战”深度研究

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

让智能体组团搞深度研究,效果爆表!

华为最新发布DeepDiver-V2原生多智能体系统

采用了“团队作战”模式:一个Planner负责任务分解,任务分发,进度审视和成果验收,多个专业Executor并行处理子任务,通过共享文件系统高效交换信息。



与仅通过推理框架实现的多智能体系统不同,DeepDiver-V2以多智能体形态进行训练,模型天然具备更强的角色扮演和协同推理能力。这套系统不仅在复杂知识问答任务上取得突破,更是能够生成数万字的高质量深度研究报告,在多个榜单中表现亮眼。

它基于华为openPangu Agent推出的DeepDiver-V2,这是一个专攻AI深度搜索和长文调研报告生成的模型。目前已开源

  • 开源模型地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver
  • 技术报告地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf

性能爆表:优于同规格竞品

数字最有说服力。DeepDiver-V2-7B和DeepDiver-V2-38B和在多个权威基准测试中表现亮眼:

  • BrowseComp-zh:DeepDiver-V2-38B达到34.6分,超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分);DeepDiver-V2-7B同样超过了WebSailor和MiroThinker同规格模型。
  • BrowseComp-en:DeepDiver-V2-38B达到13.4分,同规模开源模型中最高, 也超过了WebSailor-72B。

在长文报告生成方面,DeepDiver-V2提出了一个全新的面向深度调研报告生成的基准测试WebPuzzle-Writing,该基准给每个调研query设置了详细的调研范围而非开放生成,可以更加方便多个模型之间的横评。

在该测试中,DeepDiver-V2生成的报告平均长度达24.6K tokens,是OpenAI o3 DeepResearch(10.6K)的两倍多。自动评测结果也显示DeepDiverV2效果与主流agent产品相当, 在信息度上格外亮眼,Content Diversity指标优于其他模型。





架构创新:从单兵作战到团队协作

团队之前的研究成果DeepDiver-V1就像一个全能选手,需要在一个超长的上下文窗口中处理所有任务,结果往往因为负担过重而表现不佳。DeepDiver-V2改变了这一模式。它采用以Planner(规划器)为中心, 协调多个Executor(执行器)的MAS(Multi-Agent System,多智能体系统)架构。

智能任务分解

Planner接到复杂查询后,会进行自适应复杂度评估。简单问题直接处理,复杂问题则构建一个”任务树”,将大任务层层分解为可并行/串行/嵌套执行的子任务。

Planner甚至会采用”竞争赛马”机制——让多个 Executor同时处理相似任务,通过交叉验证提高结果可靠性。



文件系统通信

不同于DeepDiver-V1使用单个上下文窗口处理多个任务,智能体之间各自执行任务, 并通过共享文件系统交换信息:

交换的信息 = {当前任务摘要, 任务执行过程产生的中间物料的元数据}

每个智能体只需传递精炼的任务摘要和文件元数据,而非完整上下文。详细内容存储在共享文件中,其他智能体按需读取。这种设计带来三大优势:

1、可扩展通信:消息大小保持可控,不受任务复杂度影响。
2、持久化状态:历史信息得以完整保存,LLM Agents无需维护完整对话历史。
3、并行执行:独立子任务可同时处理,避免上下文冲突。

专业化分工

系统包含两类核心Executor:

1、Information Seeker(信息搜集助手):负责证据收集, 验证, 去噪等。Information Seeker可以网罗相关信息, 筛选特定信息源, 深度分析并提取关键事实和数据, 迭代式的完善收集到的信息以解决Planner分发的任务。

2、Writer(写作助手):负责长文本生成, writer可以构建章节大纲, 并分配资料到各个章节. Writer使用逐章节写作的方式, 并能够迭代式的完善行文, 能够保持全局的连贯性。

MAS(多智能体系统)训练

训练多智能体系统面临独特挑战:当最终任务失败时,如何判断是哪个智能体的责任?当最终任务成功时, 如何判断是哪个智能体做出了贡献? DeepDiver-V2提出了Planner-centric(以规划器为中心的)的分配机制。



训练流程采用多阶段优化:

1、冷启动监督微调
首先让模型学会基本的多角色协作、工具调用和文件系统操作,奠定多智能体能力基础。

2、拒绝采样微调(RFT)

  • Trajectory-wise(按轨迹粒度的)过滤:从planner的视角出发, 保留得出正确答案的执行路径。
  • Step-wise(按步骤粒度的)评分:使用LLM评判每个planner中间步骤的质量(1-10分)。
  • Credit Broadcasting(信用传播):planner的评分通过任务分配和协调关系传播到executor轨迹上,这种从粗到细的过滤确保只有高质量的推理步骤用于训练。

3、在线RFT

在离线RFT的基础上, DeepDiver使用相同的credit assignment策略,进一步进行在线RFT训练, 结合partial rollout(部分轨迹采样) 和dynamic rollout-buffered batching(动态轨迹缓存批处理)策略, DeepDiver-V2的在线训练得以高效且稳定的进行。

训练数据上, DeepDiver-V2继续沿用了DeepDiver-V1的训练数据WebPuzzle, 然而在WebPuzzle的基础上, DeepDiver-V2进一步增加了更多有挑战性, 验证性更强的数据, 同时加入了原本WebPuzzle没有的长文写作数据. 经过了这些数据的训练, DeepDiver-V2表现出了更强大的性能。

技术支撑:纯血昇腾NPU集群加速

DeepDiver-V2的训练完全使用Atlas 800I A2集群进行, 依托于1000+ NPU组成的大规模计算集群。每个节点包含8个 NPU,这些NPU通过华为高速缓存一致性系统(HCCS)以全互联拓扑相连,每个NPU配备64GB内存。用于跨节点通信时,集群采用基于以太网的RDMA,通过200 Gbps链路为跨节点的NPU提供高带宽连接。团队开发了专门的强化学习框架,包括:

  • Agent Factory:算法优先的代码库,简化多智能体开发。
  • StaleSync:staleness-aware的梯度的同步调度机制,提升30%设备利用率。
  • 分布式训练:支持在线和离线的SFT、RFT和RL训练。

实验分析

研究团队进行了系统性的消融实验和深度分析,揭示了多智能体协作背后的几个关键机制和意外发现。

Executor能力是性能瓶颈,Planner”够用就好”
团队通过”角色互换”实验发现了一个有趣现象:系统性能对Executor能力极其敏感,但对Planner要求相对宽松。

具体数据显示:


  • 将7B Executor升级为38B,BrowseComp-zh分数猛增9分(18.3→27.3)。
  • 将7B Planner升级为38B,仅提升6.3分(18.3→24.6)。
  • 在长文本写作任务中,升级Writer涉及的模块带来的提升(5.51→5.80)远超升级Planner(5.51→5.56)





这个发现颠覆了以往的认知——一般大家会以为”大脑”(Planner)最重要,但实际上”手脚”(Executor)的能力才是关键。研究团队分析,这是因为Planner的任务相对标准化(分解问题、分配任务),而 Executor需要处理各种复杂的实际场景。一个中等能力的7B Planner已经能胜任大部分协调工作。

单体能力的意外涌现:团队训练造就全能选手

最令人惊讶的发现是:为团队协作训练的, 服务于Planner的子智能体,单独使用时竟然也是高手

当研究团队将Information Seeker从系统中剥离出来单独测试时:


  • 38B Information Seeker在BrowseComp-zh上得分26.3,Single Agent(ReACT)模式同样超越了WebSailor-32B(25.5分)。
  • 7B Information Seeker得分15.9,超过完整的WebSailor-7B系统(14.2分)。
  • 在相对简单的Xbench-DeepSearch上,38B Information Seeker单枪匹马就达到52.0分,几乎等同于完整系统(53.0分)。

这种现象说明,多智能体训练不仅提升了协作能力,还让每个子智能体在处理扩展任务集时变得更加鲁棒。就像优秀的团队成员,既能配合默契,又能独当一面。

展望:AI搜索的新范式

DeepDiver-V2相对DeepDiver-V1, 从单一模型的”独角戏”到多智能体的”交响乐”,这种转变为解决更复杂的现实问题开辟了道路。未来, DeepDiver将在企业调研、科学文献综述、专业数据分析等专业领域发挥巨大作用。

【参考文献】
[1] Shi, Wenxuan, et al. “Pangu deepdiver: Adaptive search intensity scaling via open-web reinforcement learning.” arXiv preprint arXiv:2505.24332 (2025).
[2] Li, Kuan, et al. “WebSailor: Navigating Super-human Reasoning for Web Agent.” arXiv preprint arXiv:2507.02592 (2025).
[3] Li, Xiaoxi, et al. “Webthinker: Empowering large reasoning models with deep research capability.” arXiv preprint arXiv:2504.21776 (2025).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
传统床“正退出”中国家庭?看看年轻人家里的做法,那叫一个高级

传统床“正退出”中国家庭?看看年轻人家里的做法,那叫一个高级

装修秀
2025-09-17 10:40:03
染色体多一条,长相像一家?为啥唐氏儿千人一面,还“挑”妈?

染色体多一条,长相像一家?为啥唐氏儿千人一面,还“挑”妈?

向航说
2025-09-04 00:05:03
又是乱作为福州实验小学无视法规竟收一百多名片外生

又是乱作为福州实验小学无视法规竟收一百多名片外生

书画家推荐
2025-09-17 11:40:40
被河南夫妇收养的“小黑妮”结婚现场直播带货,直播间被封,本人更新视频:结婚啦,以后就是大人了

被河南夫妇收养的“小黑妮”结婚现场直播带货,直播间被封,本人更新视频:结婚啦,以后就是大人了

鲁中晨报
2025-09-17 10:59:04
89岁谢贤生活近况曝光:四名工人24小时看护,王菲谢霆锋频繁探望

89岁谢贤生活近况曝光:四名工人24小时看护,王菲谢霆锋频繁探望

庭小娱
2025-09-16 19:21:18
货车司机遗失13块银砖 对话货车司机:价值百万,找不回来面临赔偿

货车司机遗失13块银砖 对话货车司机:价值百万,找不回来面临赔偿

封面新闻
2025-09-17 12:16:02
马筱梅深夜直播4万人在线,独自照顾孩子,几个月没有与爸爸见面

马筱梅深夜直播4万人在线,独自照顾孩子,几个月没有与爸爸见面

影视口碑榜
2025-09-17 16:36:55
iOS 26“液态玻璃”设计翻车 被嘲图标太大 像老年机界面

iOS 26“液态玻璃”设计翻车 被嘲图标太大 像老年机界面

手机中国
2025-09-16 16:10:09
什么梗?“丝瓜汤”一夜之间刷屏,无数人瞬间破防

什么梗?“丝瓜汤”一夜之间刷屏,无数人瞬间破防

环球网资讯
2025-09-17 14:14:19
34名顶尖专家牺牲,但中国预警机却因此实现技术突破,如何做到的

34名顶尖专家牺牲,但中国预警机却因此实现技术突破,如何做到的

霁寒飘雪
2025-09-17 19:36:18
果然中国不出所料:中方提出“激进”要求后,特朗普马上签总统令

果然中国不出所料:中方提出“激进”要求后,特朗普马上签总统令

基斯默默
2025-09-17 18:06:26
难以置信!刘女士被诈骗走35万,某小区拉红色横幅“恭喜”人家…

难以置信!刘女士被诈骗走35万,某小区拉红色横幅“恭喜”人家…

明月杂谈
2025-09-17 12:08:02
杨天真纽约被偶遇,脖前倾严重还有双下巴,与本人发的照片差别大

杨天真纽约被偶遇,脖前倾严重还有双下巴,与本人发的照片差别大

娱圈小愚
2025-09-17 10:37:33
陕西高二女生午休时操场产子,调查后发现,孩子父亲身份不简单

陕西高二女生午休时操场产子,调查后发现,孩子父亲身份不简单

苏大强专栏
2024-07-18 20:34:57
班通达是他信的长子,佩通坦的哥哥,他很少公开露面为什么?

班通达是他信的长子,佩通坦的哥哥,他很少公开露面为什么?

混沌录
2025-09-17 13:42:06
陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

喜欢历史的阿繁
2025-09-16 17:17:41
曼联盯上“神奇教头”以取代阿莫林,他亦是曼城的头号目标

曼联盯上“神奇教头”以取代阿莫林,他亦是曼城的头号目标

夜白侃球
2025-09-16 22:26:09
特朗普态度变了,美国誓言保护北约领土,北约启动东部防御活动

特朗普态度变了,美国誓言保护北约领土,北约启动东部防御活动

文雅笔墨
2025-09-17 11:59:27
丰田打响“第一枪”,从45万跌至23万,长超5米1的大7座,油耗5L

丰田打响“第一枪”,从45万跌至23万,长超5米1的大7座,油耗5L

鹿鹿156
2025-08-30 14:31:55
西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

中原医生
2025-09-16 12:07:09
2025-09-17 21:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11332文章数 176279关注度
往期回顾 全部

科技要闻

港股大涨:百度涨近20%,阿里涨超5%

头条要闻

男子将百万房车停南宁街头免费给陌生人用:钥匙自取

头条要闻

男子将百万房车停南宁街头免费给陌生人用:钥匙自取

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

今晚,全球屏息:美联储重启降息……

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

旅游
本地
手机
艺术
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

手机要闻

OPPO K13s上手评测:流畅续航耐用均衡铁三角

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版