网易首页 > 网易号 > 正文 申请入驻

搜索智能体的关键一课:先立目标,再照镜子

0
分享至



随着 AI 能力不断增强,它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」,让它主动去搜集信息、分析证据、做出判断。搜索智能体正是 AI 触达人类世界迈出的重要一步。

然而,现实世界的搜索环境并不总是「信息增益」的来源;它也可能放大微小偏差、把模型带入错误轨道。如何让搜索智能体在复杂环境中更稳健,成为关键问题。

近期,上海人工智能实验室及合作单位提出了一个简单而有效的思路:让搜索智能体像人一样,先「立目标」,再「照镜子」。具体而言,模型在每一次搜索前都要明确「我想找什么」(goal-oriented planning),搜索后再判断「是否找到」(self-reflection)。

我们将这一思路实现为 RE-Searcher,并在多个开放域问答与多跳推理任务上取得了新 SOTA 表现,同时显著提升了对环境噪声与搜索脆弱性的抵抗力。



  • 论文标题:RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection
  • 论文链接:
  • https://arxiv.org/abs/2509.26048

本文要点:

  • 搜索环境是把双刃剑:既可能带来信息增益,也可能放大误差;
  • RE-Searcher 通过「目标规划 + 自我反思」显式约束搜索路径,从错误轨迹中自我纠偏;
  • 在 7 个数据集上平均表现达到 SOTA 水平,并在干扰测试中表现出显著的稳健性。

「信息增益」 or 「误差增幅」

现实搜索并非总是「问一得十」。我们的分析表明,搜索环境的复杂性会显著放大模型固有的随机性,导致「同样的问题,跑两次,命运不同」的脆弱现象。

如图 1 所示,在相同数据上重复两次推理,弱一些的基础模型往往出现「随机正确」(random right)比例接近或甚至高于「总是正确」(always right)的情况。这种随机性极大削弱了模型的实际表现。这种不稳定的根源在于搜索过程的脆弱性。



图 1. 模型回答随机性分析

如图 2 所示,只对检索式做细微改动(同义替换、增/删一词),检索结果的语义相似度就可能大幅下降,许多样本跌破 0.6 阈值。一个看似合理却偏离主题的关键词,足以把搜索引向错误分支。



图 2. 搜索结果脆弱性分析

直观理解:如图 3 所示,把检索看作在「关键词图」上行走。一次小小的关键词变化,可能让智能体走进另一条支路;若后续优化都围绕这条错误分支展开,越走越偏,难以回到正确答案。强模型(如 GPT-4o)有时能「自救」,但更普遍、可落地的方式,是让模型从一开始就「立目标」,并在每一步都「照镜子」。



图 3. 搜索脆弱性分析

「立目标」与「照镜子」

为了让 AI 变得更稳健,研究团队提出了RE-Searcher框架。其核心思想是模仿人类在处理复杂任务时的两个关键认知行为:

  • 「立目标」(Goal-Oriented Planning):在每次搜索前,不再是模糊地生成关键词,而是明确地规划出本次搜索想要达成的具体目标。

  • 「照镜子」(Self-Reflection):在获得搜索结果后,智能体必须进行反思,判断返回的信息是否满足了预设的目标。如果满足,则进入下一步;如果不满足,就需要调整搜索策略(比如修改关键词),重新搜索,直到达成目标为止。

为了实现这一点,如图 4 所示,研究团队设计了一套简单却有效的训练机制。他们通过特定的指令模板(如使用

标签)来规范智能体的思考和行为格式。

特别地,在「照镜子」环节,团队让一个「教师模型」(如 GPT-4o-mini)来评判智能体的反思是否正确,并将评价结果作为奖励信号,从而训练智能体学会如何进行高质量的自我反思。



图 4. 训练 pipeline

小例子:经过训练的模型在一次多跳检索中,搜索引擎曾把关键词误解为同名小说;RE-Searcher 在反思环节判定「未满足目标」,只改了一个限定词就把结果拉回正轨。

实验结果:

更稳健的搜索智能体

为了验证 RE-Searcher 的效果,研究团队进行了一系列详尽的实验。

SOTA 表现与有效的反思行为

在包括 NQ、HotpotQA 在内的 7 个主流搜索问答数据集上,RE-Searcher 取得了领先的表现。无论是在 3B 还是 7B 模型规模上,RE-Searcher 的平均表现都超过了现有的基线模型,达到了新的SOTA(State-of-the-art)水平。



图 5. 主要性能表现

实验还证明了「反思奖励」的有效性。如果没有这个奖励,模型在反思时的判断准确率仅在 50% 左右(相当于随机猜测)。而加入奖励后,模型的反思能力得到了显著且稳定的提升。



图 7. 反思正确率变化曲线

有效抵抗「搜索脆弱性」

RE-Searcher 能否缓解前面提到的「随机正确」问题?答案是肯定的。

实验数据显示,经过训练后,RE-Searcher 的「随机正确」比例大幅降低。以 7B 模型为例,其「随机正确」率从 SFT(监督微调)模型的17.09%降低到了8.74%,几乎减半,并且非常接近能力更强的 GPT-4o 的水平(8.32%)。这表明,智能体不再是「凭运气」答对,而是真正具备了稳定解决问题的能力。



图 8. 随机性变化效果

面对外部干扰,表现更「淡定」

为了模拟真实世界中更极端的噪声,研究团队设计了一个「压力测试」:在智能体的第一次搜索时,人为地向其搜索查询中引入干扰(如随机增删或替换词语),观察其性能下降程度。

结果显示,RE-Searcher 表现出了极强的鲁棒性。与基线模型 Search-R1 相比,RE-Searcher (7B) 的性能下降幅度要小得多(12.73%vs21.30%),几乎与 GPT-4o 处于同一水平。这证明了「立目标、照镜子」的策略使其不容易被初期的错误信息带偏,具备更强的纠错和恢复能力。



图 9. 抗干扰实验结果展示

未来展望

RE-Searcher 的研究证明,通过教会 AI 智能体进行目标规划和自我反思,可以显著提升其在复杂环境中的稳健性和可靠性。随着我们给予 AI 越来越多的自主权,它们将不可避免地与更加动态和不可预测的真实世界环境进行交互。如何确保它们在这一过程中行事稳健、值得信赖,是一个需要持续探索的重要课题。这项工作为构建更强大、更负责任的自主智能体迈出了坚实的一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

里芃芃体育
2026-03-26 16:00:06
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

寻墨阁
2026-03-25 12:40:35
感谢监管,为量化戴上紧箍咒,散户终见曙光

感谢监管,为量化戴上紧箍咒,散户终见曙光

风风顺
2026-03-26 10:28:39
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

科学发掘
2026-03-26 17:46:48
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

界面新闻
2026-03-25 15:50:08
瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

阿凫爱吐槽
2026-03-24 00:54:18
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
网易开了个坏头?

网易开了个坏头?

虎嗅APP
2026-03-26 19:40:05
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
2026-03-26 23:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
旅游
游戏
本地

转头就晕的耳石症,能开车上班吗?

教育要闻

骂人没有杀伤力?那不是白忙活吗?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版