网易首页 > 网易号 > 正文 申请入驻

蚂蚁安全团队新范式Agentic Deep Research,推理能力显著提升

0
分享至

来源:市场资讯

(来源:机器之心Pro)

尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解决方案。

OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensive Understanding):能够处理复杂、多跳的用户提问;(2)强大的信息整合能力(Enhanced Synthesis):能够将广泛甚至冲突的信息源整合为合理的输出;(3)减轻用户的认知负担(Reduced User Effort):整个 research 过程完全自主,不需要用户的过多干预。

现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心问题:

以上两个限制限制了 Agentic Deep Research 系统的性能上线,为决解这两大限制,来自蚂蚁安全与智能实验室团队提出了 Atom-Searcher,进一步推动了 Agentic Deep Research 系统的性能边界。



方法介绍

本研究提出了一种创新性的 Agentic Deep Research 系统训练框架 Atom-Searcher,结合监督微调(SFT)与基于细粒度奖励的强化学习构建强大的 Agentic Deep Research 系统。

与现存 Agentic Deep Research 训练框架相比,Atom-Searcher 创新地提出了 Atomic Thought 推理范式,引导 LLM 进行更加深入、可信和可解释的推理;然后引入 Reasoning Reward Model(RRM)对 Atomic Thought 式的推理过程进行监督,构建细粒度的 Atomic Thought Reward(ATR);进而提出一种课程学习启发的奖励融合策略将 ATR 与可验证结果奖励进行聚合;最后基于聚合奖励进行强化学习训练。


Atomic Thought 推理范式



细粒度 Atomic Thought Reward 构建


课程学习启发的奖励聚合策略

基于可验证结果的奖励的 Agentic Deep Research 系统之所以存在梯度冲突问题,是由于基于结果的奖励在 token 级别的奖励分配上过于粗糙。具体来说,它将中间推理步骤的正确性完全归因于最终答案,常常在不考虑各步骤实际贡献的情况下对其进行奖励或惩罚。这种错位在优化过程中会引发梯度冲突。为解决这一问题,我们将 ATR 与结果奖励相结合,利用 ATR 作为辅助信号来校准结果奖励,从而缓解梯度冲突。

然而,使用静态的奖励加权系数无法与训练动态保持一致。具体而言,在训练初期,模型能力尚有限,难以生成完全正确的答案,但更有可能探索出对最终正确解有贡献的有用 “原子思维”。如果此阶段仅依赖基于结果的奖励,这些有益的原子思维可能因最终答案错误而遭到不公正的惩罚;相反,一些有害的原子思维也可能被错误地强化,导致严重的梯度冲突,因而需要 ATR 进行较强的校准。随着训练的推进,模型能力逐步提升,其推理轨迹与正确答案的对齐程度也日益提高。因此,梯度冲突逐渐减弱,而来自 ATR 的过度校准可能会引入不必要的噪声,反而损害最终的准确性。

强化学习训练

基于混合奖励,本文采用了 GRPO 算法进行强化学习训练。并使用了 Loss Masking 策略保证训练的稳定性。具体而言,在原始的 GRPO 框架中,损失函数会计算整个推理路径中所有 token 的梯度。但在 Atom-Searcher 中,模型的输出路径包含由外部环境检索得到的内容(如搜索结果),这些内容不是模型生成的,也不可训练。为了避免模型在训练时被这些静态、不可控的内容误导,本文采用了 Loss Masking 机制,将检索结果部分的 token 排除在损失计算之外。

实验效果

主实验

Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表现均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 2.5% 的性能提升。


消融实验

作者们证明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的贡献,并证明了相较于传统的 < think > 推理范式 Atomic Thought 范式为 RRM 提供了有效的监督锚点,从而带来了性能提升


案例分析

作者们通过案例分析对比了 Atom-Searcher 与最优 baseline——DeepResearcher 的推理过程。展示了 Atom-Searcher 的优势:(1)Atom-Searcher 在其推理过程中自主生成了 Atomic Thoughts,展现出更接近人类的认知行为,例如问题分析、提出解决方案假设、预测错误以及规划下一步操作,使其推理过程更加深入且清晰;(2)Atom-Searcher 会触发更多的搜索调用,从而获取更丰富的外部信息,以确保答案的正确性。这些优势表明,Atom-Searcher 在更复杂的 Deep Research 任务中具有巨大潜力。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近10000平方米!长宁新开一家城市奥莱门店→

近10000平方米!长宁新开一家城市奥莱门店→

上海长宁
2025-11-18 12:52:57
比特币跌破9万美元关口

比特币跌破9万美元关口

界面新闻
2025-11-18 12:10:03
6连败西部垫底!亲手送走明年首轮!他毁掉豪门后又毁一支青年军

6连败西部垫底!亲手送走明年首轮!他毁掉豪门后又毁一支青年军

阿浪的篮球故事
2025-11-18 16:07:08
央视对全红婵的称呼变了,两字之差看出差距,王伟莹的话没说错

央视对全红婵的称呼变了,两字之差看出差距,王伟莹的话没说错

陈意小可爱
2025-11-18 14:39:07
一个人的行李里装了13400支!大连海关:数量不对!

一个人的行李里装了13400支!大连海关:数量不对!

环球网资讯
2025-11-18 09:29:22
关闭全部门店,盒马创始人又失败了

关闭全部门店,盒马创始人又失败了

邱处机
2025-11-17 19:06:09
8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

小马达情感故事
2025-10-27 19:45:03
蒋介石在日记里坦言:重庆谈判放走毛泽东,全是因为这两点!

蒋介石在日记里坦言:重庆谈判放走毛泽东,全是因为这两点!

鹤羽说个事
2025-10-25 11:44:53
哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

兴趣知识
2025-11-11 21:20:51
场均16+3+2!又一个库里,都说他是水货探花,但火箭证明物超所值

场均16+3+2!又一个库里,都说他是水货探花,但火箭证明物超所值

巴叔GO聊体育
2025-11-18 15:56:28
这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

装修秀
2025-10-18 11:30:03
又一座古城“凉了”!砸20亿难逃“鬼城”命运,巨额学费谁买单?

又一座古城“凉了”!砸20亿难逃“鬼城”命运,巨额学费谁买单?

毒sir财经
2025-11-17 21:54:01
一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

一夜损失40000亿美元背后,这位18岁中国少年轰动世界!

阿燕姐说育儿
2025-11-15 06:36:19
曾出演《艾斯奥特曼》的日本演员高峰圭二发帖质问高市:与中国起争执有什么好处

曾出演《艾斯奥特曼》的日本演员高峰圭二发帖质问高市:与中国起争执有什么好处

环球网资讯
2025-11-17 20:59:32
高中学历的骗子竟骗成了大学博导?江苏科技大学的瓜

高中学历的骗子竟骗成了大学博导?江苏科技大学的瓜

笔杆论道
2025-11-18 08:27:03
台前舰长吕礼诗喊话日本:这次千万别投降!

台前舰长吕礼诗喊话日本:这次千万别投降!

看看新闻Knews
2025-11-18 15:24:01
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
小姐姐一身浅蓝色穿搭可爱大方,甜美又俏皮,满满的清新性感风

小姐姐一身浅蓝色穿搭可爱大方,甜美又俏皮,满满的清新性感风

小乔古装汉服
2025-11-18 15:14:25
再次推演台海冲突,20轮兵推后,美智库发现:有一点非常不可思议

再次推演台海冲突,20轮兵推后,美智库发现:有一点非常不可思议

boss外传
2025-11-13 18:55:03
20连板!大牛股复牌后再涨停,公司回应:正朝着“保壳”方向努力

20连板!大牛股复牌后再涨停,公司回应:正朝着“保壳”方向努力

21世纪经济报道
2025-11-18 11:38:03
2025-11-18 16:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1414681文章数 4545关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

游戏
艺术
数码
家居
军事航空

深海迷航+无人深空?开放世界多人捡垃圾《永恒天空》免费大更

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

数码要闻

华为MatePad Mini开放鸿蒙6花粉Beta版升级,破局小平板市场

家居要闻

彰显奢华 意式经典风格

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版