网易首页 > 网易号 > 正文 申请入驻

清华团队提出DeepDive:深度搜索Agent再迎新突破

0
分享至

为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力

然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL来创建具备复杂长程推理和网页浏览能力的 Agent

论文链接:https://arxiv.org/abs/2509.10446

实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。

图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外,除了上述方法和数据,研究团队还开源了一项关于半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。

值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

(地址:https://github.com/THUDM/DeepDive)

DeepDive 是怎样练成的?

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。

在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限

知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。

图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。

在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。

实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。

图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样?

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:

表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。† 表示通过函数调用实现浏览功能。

图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。

图|DeepDive 在简单搜索基准上的泛化效果。† 表示通过函数调用来实现浏览功能。

以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然,DeepDive 并非完美,依然存在一些局限性。

例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。

此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

美媒晒NBA球队市值排名:勇士113.3亿美元居首 湖人第2火箭第10

罗说NBA
2026-03-26 06:18:02
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

A股:紧急提醒股民,主力已摊牌!明天,3月26日周四尾声将至?

云鹏叙事
2026-03-26 00:00:06
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

有范又有料
2026-03-25 14:08:39
2026QS世界大学学科排名正式发布!

2026QS世界大学学科排名正式发布!

双一流高校
2026-03-26 00:11:50
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

小徐讲八卦
2026-03-26 12:55:53
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
2026-03-26 16:07:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
艺术
时尚
本地
房产

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

艺术要闻

哪一座桥不是风景?

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

无障碍浏览 进入关怀版