网易首页 > 网易号 > 正文 申请入驻

蚂蚁安全团队新范式Agentic Deep Research,推理能力显著提升

0
分享至



尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解决方案。

OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensive Understanding):能够处理复杂、多跳的用户提问;(2)强大的信息整合能力(Enhanced Synthesis):能够将广泛甚至冲突的信息源整合为合理的输出;(3)减轻用户的认知负担(Reduced User Effort):整个 research 过程完全自主,不需要用户的过多干预。

现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心问题:

  • 梯度冲突(Gradients Conflicts):在基于可验证结果奖励的强化学习范式中,即使中间的推理过程或研究策略是有效的,只要最终答案错误,整个推理轨迹都会受到惩罚。这种粗粒度的奖励设计在中间推理步骤与最终答案之间引入了潜在的梯度冲突,阻碍了模型发现更优的推理能力和研究策略,从而限制了其泛化能力
  • 奖励稀疏(Reward sparsity):基于结果的强化学习仅依赖最终答案生成奖励,导致每个训练样本只能提供稀疏的反馈信号。这严重限制了策略优化的效率,因为它增加了对更大规模训练数据和更长训练周期的依赖。

以上两个限制限制了 Agentic Deep Research 系统的性能上线,为决解这两大限制,来自蚂蚁安全与智能实验室团队提出了 Atom-Searcher,进一步推动了 Agentic Deep Research 系统的性能边界。



  • 论文标题:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
  • 论文:https://arxiv.org/abs/2508.12800
  • Github: https://github.com/antgroup/Research-Venus
  • Huggingface: https://huggingface.co/dikw/Atom-Searcher



方法介绍

本研究提出了一种创新性的 Agentic Deep Research 系统训练框架 Atom-Searcher,结合监督微调(SFT)与基于细粒度奖励的强化学习构建强大的 Agentic Deep Research 系统。

与现存 Agentic Deep Research 训练框架相比,Atom-Searcher 创新地提出了 Atomic Thought 推理范式,引导 LLM 进行更加深入、可信和可解释的推理;然后引入 Reasoning Reward Model(RRM)对 Atomic Thought 式的推理过程进行监督,构建细粒度的 Atomic Thought Reward(ATR);进而提出一种课程学习启发的奖励融合策略将 ATR 与可验证结果奖励进行聚合;最后基于聚合奖励进行强化学习训练。



Atomic Thought 推理范式





细粒度 Atomic Thought Reward 构建



课程学习启发的奖励聚合策略

基于可验证结果的奖励的 Agentic Deep Research 系统之所以存在梯度冲突问题,是由于基于结果的奖励在 token 级别的奖励分配上过于粗糙。具体来说,它将中间推理步骤的正确性完全归因于最终答案,常常在不考虑各步骤实际贡献的情况下对其进行奖励或惩罚。这种错位在优化过程中会引发梯度冲突。为解决这一问题,我们将 ATR 与结果奖励相结合,利用 ATR 作为辅助信号来校准结果奖励,从而缓解梯度冲突。

然而,使用静态的奖励加权系数无法与训练动态保持一致。具体而言,在训练初期,模型能力尚有限,难以生成完全正确的答案,但更有可能探索出对最终正确解有贡献的有用 “原子思维”。如果此阶段仅依赖基于结果的奖励,这些有益的原子思维可能因最终答案错误而遭到不公正的惩罚;相反,一些有害的原子思维也可能被错误地强化,导致严重的梯度冲突,因而需要 ATR 进行较强的校准。随着训练的推进,模型能力逐步提升,其推理轨迹与正确答案的对齐程度也日益提高。因此,梯度冲突逐渐减弱,而来自 ATR 的过度校准可能会引入不必要的噪声,反而损害最终的准确性。

强化学习训练

基于混合奖励,本文采用了 GRPO 算法进行强化学习训练。并使用了 Loss Masking 策略保证训练的稳定性。具体而言,在原始的 GRPO 框架中,损失函数会计算整个推理路径中所有 token 的梯度。但在 Atom-Searcher 中,模型的输出路径包含由外部环境检索得到的内容(如搜索结果),这些内容不是模型生成的,也不可训练。为了避免模型在训练时被这些静态、不可控的内容误导,本文采用了 Loss Masking 机制,将检索结果部分的 token 排除在损失计算之外。

实验效果

主实验

Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表现均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 2.5% 的性能提升。



消融实验

作者们证明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的贡献,并证明了相较于传统的 < think > 推理范式 Atomic Thought 范式为 RRM 提供了有效的监督锚点,从而带来了性能提升



案例分析

作者们通过案例分析对比了 Atom-Searcher 与最优 baseline——DeepResearcher 的推理过程。展示了 Atom-Searcher 的优势:(1)Atom-Searcher 在其推理过程中自主生成了 Atomic Thoughts,展现出更接近人类的认知行为,例如问题分析、提出解决方案假设、预测错误以及规划下一步操作,使其推理过程更加深入且清晰;(2)Atom-Searcher 会触发更多的搜索调用,从而获取更丰富的外部信息,以确保答案的正确性。这些优势表明,Atom-Searcher 在更复杂的 Deep Research 任务中具有巨大潜力。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

兴史兴谈
2026-01-13 01:18:53
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

懂球帝
2026-02-01 12:37:35
三大运营商宣布调整电信服务增值税税率,由6%调至9%

三大运营商宣布调整电信服务增值税税率,由6%调至9%

IT之家
2026-02-01 17:56:09
不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

我心纵横天地间
2026-02-01 13:13:56
田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

潘蠸旅行浪子
2026-01-14 03:43:09
山东明确了!2026年继续提高城乡居民基础养老金,能涨多少?

山东明确了!2026年继续提高城乡居民基础养老金,能涨多少?

财话连篇
2026-02-01 20:04:10
起风了,军权刚到手,委代总统就收命令,立即驱逐中方外交官?

起风了,军权刚到手,委代总统就收命令,立即驱逐中方外交官?

吴欣纯Deborah
2026-01-31 18:15:06
轮胎成为压垮电车车主的稻草,加上超高的保险费,省钱已成为笑话

轮胎成为压垮电车车主的稻草,加上超高的保险费,省钱已成为笑话

柏铭锐谈
2026-01-26 23:50:34
具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

无人倾听无人倾听
2026-02-01 03:33:39
个人每次挣钱低于1000元不用交增值税

个人每次挣钱低于1000元不用交增值税

每日经济新闻
2026-02-01 12:25:05
国投白银LOF:本基金将于2月2日开市起至当日10:30停牌 价格涨跌幅限制比例为10%

国投白银LOF:本基金将于2月2日开市起至当日10:30停牌 价格涨跌幅限制比例为10%

每日经济新闻
2026-02-01 19:36:53
又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

麦杰逊
2025-12-16 14:29:46
被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

时尚穿搭生活馆
2026-01-27 21:21:35
数名院士呼吁糖尿病患者停止食用,比白糖还粘血管,趁早撤下餐桌

数名院士呼吁糖尿病患者停止食用,比白糖还粘血管,趁早撤下餐桌

王晓爱体彩
2026-01-31 07:20:06
山东大学顺利举办“马杜罗思想体系研讨会”

山东大学顺利举办“马杜罗思想体系研讨会”

必记本
2026-02-01 13:12:33
"反对一刀切!连中成药他们都要搞,简直了!最终受伤的还不是我们!"

"反对一刀切!连中成药他们都要搞,简直了!最终受伤的还不是我们!"

思如哲思
2026-01-31 08:13:53
无需额外硬件?星链配合iPhone18Pro全球联网,国行不能使用!

无需额外硬件?星链配合iPhone18Pro全球联网,国行不能使用!

眼光很亮
2026-01-31 14:00:26
1936年,孙科为讨新欢蓝妮开心,狠心抛弃怀孕的秘书严蔼娟

1936年,孙科为讨新欢蓝妮开心,狠心抛弃怀孕的秘书严蔼娟

古书记史
2026-01-27 00:38:02
可怕不是张本美和夺4冠王!而是赛后发言:要击败王曼昱,夺冠,冲世排第一

可怕不是张本美和夺4冠王!而是赛后发言:要击败王曼昱,夺冠,冲世排第一

好乒乓
2026-02-01 12:57:43
2026-02-02 05:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
旅游
健康
房产
手机

家居要闻

蓝调空舍 自由与个性

旅游要闻

春节必打卡10大榜单聚焦“京味年味”

耳石症分类型,症状大不同

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

无障碍浏览 进入关怀版