网易首页 > 网易号 > 正文 申请入驻

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

0
分享至

过去几年,大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时,这条路径开始显露边界。

这类场景往往要求模型在开放环境中进行多轮搜索与推理,使搜索增强推理成为主流范式,同时也暴露出一个核心问题:模型在长链搜索推理中的失败,往往不是因为推理能力不足,而是无法有效处理错误在推理过程中的出现与传播。

在现实任务中,搜索结果不可避免地包含噪声,一旦早期某次检索或信息采信出现偏差,后续推理就可能在错误语义空间中不断自洽,最终生成看似合理却偏离问题的答案。然而,现有训练方法通常只依据最终答案是否正确进行优化,使“偶然成功”的轨迹与“搜索路径可靠”的轨迹获得相同反馈,长期来看反而削弱了模型对中途错误和搜索质量的约束。这也是多轮搜索、多跳推理任务中性能崩溃呈现系统性特征的重要原因。

在这一背景下,MBZUAI 、港中文和腾讯混元组成的联合团队提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。

这项工作直指搜索增强推理中的长链推理信用分配与中途纠错缺失,通过将推理生成、轨迹判断和错误定位纳入统一的强化学习框架,使训练信号能够回传至错误首次发生的位置,从而抑制错误传播。

在智能体系统逐渐从“展示能力”走向“承担任务”的当下,这项研究的意义不在于提出一种更复杂的工程技巧,而在于为搜索型智能体提供了一种更接近真实失败模式的学习范式:不是假设推理过程天然可靠,而是承认错误不可避免,并让模型在训练中学会与错误共处、定位并修正它们。


论文地址:https://arxiv.org/pdf/2602.03647

完整闭环,而不是单一技巧

在实验结果方面,研究团队发现该方法的优势并不仅体现在整体平均性能的提升上,而是在任务难度最高、错误最容易累积的场景中表现得尤为突出。

实验评测覆盖了普通事实型问答任务和多跳推理问答任务两大类,其中前者通常只需要一到两次检索即可完成,而后者必须经历多轮“搜索—推理—再搜索”,中间任何一步出现偏差都会在后续推理中被不断放大。

实验结果表明,该方法在两类任务上均取得稳定提升,但在多跳推理任务上的提升幅度明显更大,尤其是在 HotpotQA、2WikiMultiHopQA 和 Bamboogle 等需要多轮检索协同推理的数据集上,相较基线方法带来了数个百分点到十余个百分点不等的准确率提升,其中在 Bamboogle 数据集上的相对提升幅度超过二十个百分点。

这一现象表明,其优势并非来源于更强的参数记忆能力,而是源于对长链推理过程中错误传播的有效抑制。研究人员指出,多跳推理任务的失败往往并不是由于模型无法生成最终答案,而是由于中途某一次搜索引入了错误或无关信息,使推理方向发生偏移,之后即便继续搜索和推理,也只能在错误语义空间中反复迭代,这个方法正是针对这一失败模式进行设计,因此在此类任务中的优势被显著放大。


在与拒绝采样策略的对比实验中,研究团队进一步提高了基线方法的采样预算,将每个问题的采样次数提升至原来的两倍甚至更多,但实验结果显示,即便在这种条件下,基线方法的整体性能仍然低于该方法在较小采样预算下所取得的结果。

这一对比表明,该方法的性能提升并非来自“多试几次总能蒙对”的概率收益,其关键不在于整体轨迹质量分布的上限,而在于是否能够准确识别错误首次出现的位置并进行针对性处理。拒绝采样在生成失败后会直接丢弃整条推理轨迹并重新生成,而该方法则认为失败轨迹的前半部分往往仍然是正确且有价值的,真正导致失败的通常是某一次具体的搜索步骤,这次搜索所引入的噪声会在后续推理中持续放大,从而使两种策略在长链推理任务中的样本效率产生数量级差异。


为进一步分析性能提升的来源,研究团队通过消融实验系统性地评估了各个组成模块的作用。实验结果显示,在仅引入中途纠错机制而不加入过程奖励的情况下,模型在多个数据集上的性能已经出现显著提升,表明对推理过程中关键错误进行定位和修复本身就能解决搜索增强推理中的核心瓶颈。雷峰网

在此基础上,加入用于衡量搜索结果信息密度的过程奖励后,模型性能进一步提升,说明显式区分高质量搜索与低质量搜索能够为训练过程提供更加稳定的优化方向。

最终,在对推理生成模块与纠错模块进行联合优化的完整设置下,模型在所有评测数据集上均取得最优结果,这表明纠错能力并非静态规则,而是一种需要在训练过程中被逐步学习和内化的行为策略。

整体来看,该方法的性能提升并非来源于单一技巧或额外计算量的堆叠,而是由中途纠错、搜索质量建模和联合优化共同构成的完整机制所带来的结果。


把纠错本身纳入策略空间

在实验方法设计方面,研究团队首先指出,仅依赖最终答案是否正确作为强化学习的奖励信号,在搜索增强推理任务中会系统性失效。

研究人员分析认为,在此类任务中,模型实际上需要连续做出多尺度决策,包括是否发起搜索、搜索的具体内容、搜索发生的时机,以及在获得检索结果后是否应当信任并使用这些信息。

然而传统强化学习只提供“最终答对或答错”的单一反馈信号,无法区分这些中间决策的质量差异,从而导致依靠运气在最后阶段拼凑出正确答案的推理轨迹,与逻辑结构严密、搜索路径合理的轨迹获得完全相同的奖励。

长期训练后,模型会逐渐学到搜索行为可以随意展开、早期错误不会受到实质性惩罚,只要最终答案能够生成即可,这正是现有搜索增强方法在长链推理任务中容易发生性能崩溃的根本原因。

基于这一问题,研究团队在方法中对不同功能进行了明确分工。其中,推理生成模块负责像常规搜索增强方法一样,完整生成一条包含推理与搜索行为的轨迹,该模块被允许在生成过程中犯错甚至进行探索,不承担中途自检或修复的职责。

随后,引入的纠错模块首先对整条推理轨迹进行判断,其关注重点并非最终答案是否正确,而是推理过程是否仍然围绕原始问题展开,是否出现明显的实体偏移、主题漂移或证据错位等现象。这一判断决定了轨迹是否值得继续修复,若标准过于宽松,错误轨迹会被放过,若过于严格,则高质量轨迹会被反复打断,因此这一接受与拒绝之间的平衡并非人工设定,而是通过强化学习过程自动习得。


当轨迹被判定为需要修复时,系统进一步定位推理过程中第一次发生实质性偏离的位置,即具体是哪一次搜索或推理操作将系统带离了正确的推理空间。雷峰网


一旦该位置被识别,系统会完整保留此前已经生成的推理前缀,丢弃其后的内容,并从该点重新生成后续推理,从而避免浪费已有的正确推理信息,同时使奖励信号能够精确回传至错误发生的位置,促使模型逐渐学会哪些搜索错误最具破坏性并应当被避免。研究人员在理论分析中将这一错误定位能力形式化为修剪能力,并证明其是整体性能提升的必要条件。


为防止模型出现“只修正结果而忽视错误根源”的投机行为,研究团队在训练过程中进一步引入了过程层面的奖励信号,用于衡量检索到的证据中有多少是真正支持最终答案的信息而非噪声内容,并明确规定该过程奖励仅在最终答案正确的前提下才会生效,从而保证搜索质量成为达成正确答案的必要条件,但不足以单独驱动优化目标。

最后,推理生成模块、轨迹判断模块和错误定位模块并非相互独立,而是共享同一套参数,并在同一强化学习目标下进行联合优化,将是否触发纠错以及在何处纠错都视为策略决策的一部分,使模型在训练完成后,即便不显式触发多次修复,其初始生成的推理轨迹质量本身也能够得到显著提升。


一种更贴近失败模式的学习思路

从强化学习的角度来看,这项研究解决的并不是单一模块或训练技巧的问题,而是搜索推理中长期存在的信用分配难题。在长链搜索推理过程中,模型需要在多个时间尺度上连续做出决策,而传统方法只能依据最终答案是否正确进行回报分配,导致无法区分高质量推理轨迹与依赖偶然性的成功轨迹。

研究团队通过引入轨迹筛选、错误定位和受控纠错三种机制,将原本难以处理的信用分配问题拆解为可操作的学习目标,并在理论分析中证明,只有当模型能够区分哪些轨迹值得保留、能够定位导致推理偏离的关键错误位置,并在训练过程中触发数量适当的纠错操作时,整体性能才会稳定提升。

这一结论并非经验归纳,而是通过形式化分析给出的必要条件。在方法层面,该研究进一步改变了以往反思与修正仅依赖人工提示的做法,将是否进行反思以及在何处进行修正纳入策略空间,使其成为可以通过强化学习直接优化的决策行为,从而避免了人工提示不可学习、效果不稳定的问题。

与此同时,这个方法的设计直接针对真实智能体任务中常见的失败模式,即搜索结果本身存在噪声、推理过程依赖较长的决策链条,以及早期一次错误可能对后续推理产生不可逆影响。

通过在推理过程中显式建模错误传播并提供中途干预机制,该研究为搜索型智能体在复杂任务中的稳定运行提供了一种更具针对性的解决思路。

Search-R2 的研究者们

这篇论文的一作是何博威,目前在 MBZUAI 的机器学习系担任博士后研究员,合作导师为刘学教授。在此之前,他是香港城市大学计算机科学系的博士研究生,师从马辰教授,研究方向包括 Data Mining,Language Model,AI for Science(和清华/香港城市大学马维英教授团队合作),和 Agentic AI。

他最近主要关注围绕 AI Agent 的一系列前沿探索性课题,包括智能体强化学习,智能体记忆,长时程智能体,智能体终身演化,智能体世界模型,和智能体数据 Scaling Laws 等。


参考链接:https://scholar.google.com/citations?user=1cH0A9cAAAAJ&hl=en&oi=ao

这篇文章的共同一作为 Minda Hu,目前是香港中文大学计算机科学与工程系的博士研究生,并在 MISC Lab 从事研究工作,导师为金国庆教授。

他的研究兴趣主要包括数据挖掘、机器学习和自然语言处理,并关注机器学习、社会计算与自然语言处理等方向的交叉问题,当前的研究重点在于探索如何更高效、有效地利用大语言模型,以提升模型在实际应用场景中的推理能力与整体效能。


参考链接:https://misc-lab.cse.cuhk.edu.hk/sciencex_teams/minda-hu/

除此之外,该项工作得到了麦吉尔大学,香港城市大学,和爱丁堡大学等多位研究者的参与和贡献。而该 paper 标题 Search-R2 还得到了来自 UIUC 和 Google 的 Search-R1 作者团队的官方授权

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

懂球帝
2026-02-13 07:26:24
牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

展望云霄
2026-02-13 11:19:31
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

万物知识圈
2026-01-10 09:14:17
暴跌!内存价格闪崩!

暴跌!内存价格闪崩!

中国半导体论坛
2026-02-12 20:15:38
刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

z千年历史老号
2026-02-05 16:31:39
“都2026年了,怎么还有老登指责年轻人没眼力见呢”

“都2026年了,怎么还有老登指责年轻人没眼力见呢”

雷斯林
2026-02-03 18:57:15
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

细品名人
2026-02-03 07:48:27
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

懂球帝
2026-02-12 16:45:11
缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸中文网
2026-02-12 13:49:57
一团浆糊的第一次

一团浆糊的第一次

人之情长
2026-02-12 12:00:16
赵露思的脚好有特点

赵露思的脚好有特点

情感大头说说
2026-02-13 10:25:50
美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

英国那些事儿
2026-02-11 23:19:46
挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

小书生吃瓜
2026-02-10 16:57:24
官宣!广州新增一家山姆,选址确定!

官宣!广州新增一家山姆,选址确定!

羊城攻略
2026-02-12 23:04:41
长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

界面新闻
2026-02-12 18:41:33
乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

新浪财经
2026-02-12 04:26:23
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
2026-02-13 14:07:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68550文章数 656074关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

家居
教育
手机
数码
旅游

家居要闻

中古雅韵 乐韵伴日常

教育要闻

两个阴影三角形的面积分别是3和9,求长方形面积

手机要闻

新版Siri再度跳票!苹果称2026年上线承诺不变

数码要闻

SK海力士将展示14.4Gbps LPDDR6内存,三星升级至12.8Gbps

旅游要闻

幸福中国·年味重庆 | 彭水乌江画廊喊你来过年:江畔寻别样年味

无障碍浏览 进入关怀版