网易首页 > 网易号 > 正文 申请入驻

清华团队提出DeepDive:深度搜索Agent再迎新突破

0
分享至


为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力

然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL来创建具备复杂长程推理和网页浏览能力的 Agent


论文链接:https://arxiv.org/abs/2509.10446

实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。


图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外,除了上述方法和数据,研究团队还开源了一项关于半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。


值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

(地址:https://github.com/THUDM/DeepDive)

DeepDive 是怎样练成的?

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。

在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限

知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。


图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。

在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。

实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。


图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样?

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:


表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。† 表示通过函数调用实现浏览功能。


图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。


图|DeepDive 在简单搜索基准上的泛化效果。† 表示通过函数调用来实现浏览功能。

以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然,DeepDive 并非完美,依然存在一些局限性。

例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。

此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万科走向深渊的最大推手——郁亮

万科走向深渊的最大推手——郁亮

地产微资讯
2026-02-06 10:15:49
反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

反制生效?巴总统提出新方案,或归还长和经营权,但有一个条件

墨兰史书
2026-02-06 19:17:29
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
他连刺6个美军,第7人下跪求饶,惊动毛主席:我要见见这位英雄

他连刺6个美军,第7人下跪求饶,惊动毛主席:我要见见这位英雄

珺瑶婉史
2026-02-03 19:40:05
演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

都市快报橙柿互动
2026-02-07 00:32:47
中国资产大涨!道指涨超1200点,站上50000点,英伟达市值一夜增超2万亿元!国际金银大幅反弹,发生了什么?

中国资产大涨!道指涨超1200点,站上50000点,英伟达市值一夜增超2万亿元!国际金银大幅反弹,发生了什么?

每日经济新闻
2026-02-07 06:58:06
2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

Lily美食谈
2026-02-06 23:29:15
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

时光在作祟
2026-02-04 13:40:17
警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

澎湃新闻
2026-02-07 02:00:06
疑似微博工作人员发声!证实肖战座位被挪动,内涵杨幂压不住别来

疑似微博工作人员发声!证实肖战座位被挪动,内涵杨幂压不住别来

萌神木木
2026-02-06 12:22:23
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
啥情况?德媒爆滑雪运动员向下体注射玻尿酸 以增大尺寸提高升力

啥情况?德媒爆滑雪运动员向下体注射玻尿酸 以增大尺寸提高升力

林小湜体育频道
2026-02-06 15:56:06
美军企创始人用卷尺量“歼-35A”发文诋毁 专家:行为艺术,极不专业

美军企创始人用卷尺量“歼-35A”发文诋毁 专家:行为艺术,极不专业

环球网资讯
2026-02-06 22:39:17
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
当手术室沦为贪婪的流水线,郑大一附院将谎言缝进94人身体里

当手术室沦为贪婪的流水线,郑大一附院将谎言缝进94人身体里

迷世书童H9527
2026-02-04 12:35:09
京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

每日经济新闻
2026-02-07 00:24:19
沙特联大乱?主帅声援C罗罢赛!3天内2次取消发布会,或面临重罚

沙特联大乱?主帅声援C罗罢赛!3天内2次取消发布会,或面临重罚

我爱英超
2026-02-06 22:33:17
古巴历史级严寒,俄援助杯水车薪,为什么靠偷骗抢永远富不起来?

古巴历史级严寒,俄援助杯水车薪,为什么靠偷骗抢永远富不起来?

昊轩看世界
2026-02-05 21:09:58
至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

环球网资讯
2026-02-06 14:06:36
2026-02-07 10:19:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

游戏
家居
时尚
教育
公开课

《生化危机4:重制版》换用DRM后 遭差评轰炸

家居要闻

现代轻奢 温馨治愈系

冬天不要只穿“黑白灰”!看看这些彩色的穿搭,简单又高级

教育要闻

怎样找旋转中心?两种方法都要会!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版