网易首页 > 网易号 > 正文 申请入驻

自搜索强化学习SSRL:Agentic RL的Sim2Real时刻

0
分享至

本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰,研究方向是 Agent 以及强化学习;通讯作者为清华大学周伯文教授。

此前的 Agentic Search RL 任务大多采用真实搜索引擎,导致训练效率低,速度慢,稳定性差。ZeroSearch探索利用另一个模型提供信息的训练方法,取得了较好的表现。然而,模型依赖自身世界知识能够达到的上限,以及如何有效利用自身世界知识,降低幻觉仍然是一个值得探究的问题。为研究这些问题,本文引入SSRL。

SSRL 利用结构化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各个 benchmark 上取得了更好的效果,有效地降低了模型的幻觉。本文接着探索训练 agent 是否需要真实环境的参与,并发现在接入真实搜索引擎后,经过 SSRL 训练的模型可以取得更好的效果,体现了Sim2Real的有效性。

SSRL 所有训练数据,训练细节,以及训练模型均已开源。

  • Github链接: https://github.com/TsinghuaC3I/SSRL
  • 论文链接:https://arxiv.org/abs/2508.10874

一句话总结

本研究探索 SSRL,通过大语言模型 (LLM)内部世界知识的利用,可以显著提升 Search Agent 的训练效率和稳定性。实验证明,该方法在多种基准测试中优于传统基于外部搜索引擎的方法,同时首次在 LLM 智能体领域实现了从模拟到真实 (Sim2Real) 的有效迁移。

一、动机

当前 RL 训练 Search Agent 主要有两种方式:

1.全真实搜索 (Full-Real Search):直接调用商业搜索引擎 API 或检索增强生成 (RAG) 本地知识库

2.半真实搜索 (Semi-Real Search):使用辅助 LLM 模拟搜索引擎行为

问题:

  • 高昂成本:商业 API 调用费用昂贵,本地知识库加重 GPU 负担,且和真实场景存在差距
  • 训练效率低下:多轮工具调用导致 rollout 效率降低
  • 训练不稳定性:外部信息引入导致模型容易崩溃
  • 非端到端训练:半真实搜索仍需额外微调步骤

综上所述,目前的 Search Agent 训练非常昂贵,耗时,且不稳定。

如何能够降低训练成本与训练时间,同时能够稳定地训练 Search Agent 呢?

面对这些问题,我们首先进行了对于 LLM 依赖自身世界知识所能达到的效果的上限的探究。我们利用 structured prompt 诱发 LLM 自发地利用世界知识,并且通过 pass@k 证明了其极高的上限。受此启发,我们尝试用 RL 进一步强化模型利用自身世界知识的能力,探索 SSRL 的效果。在此基础上,我们首次在 LLM Agent 领域提出 Sim2Real,并验证 SSRL 训练的模型在真实场景的泛化性。

二、观察:LLM 利用世界知识的上限

对应 Agentic Search 任务 Pass@K 上限很高

此前已经有研究证明 LLM 通过重复采样的方式可以在数学和代码取得极高的通过率,然而对于 LLM 利用自身世界知识回答 Search QA 类问题的上限还有待研究。我们首先使用一个 formatted instruction 来显式地利用模型内部知识(Self-Search)。

我们在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上进行了大量采样,实验结果显示,仅依赖模型内部知识,就可以在所有的 benchmark 上获得明显的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 达到了 76% 的正确率,在 BrowseComp 上 pass@256 达到了 10% 的正确率。同时我们发现在这类任务上 Llama 系列效果远超 Qwen 系列,这和 math 上的结论恰恰相反。

Thinking 越多效果不一定越好

受启发于 Long-CoT LRM 的惊人表现,我们探究了 Long-CoT 对知识类的问题是否会有更好的表现。我们进行了三种 setting 的检验:

  • 对于 reasoning model,我们对是否使用 thinking mode 进行了对比实验。
  • 对于 sampling strategy,我们对比了是否使用 multi-turn generation 以及 reflection-based generation。

实验结果显示,过多的 thinking,或者 multi-turn 的生成在给定相同 token budget 的情况下未必可以取得更好的效果,这也和之前的 reasoning 工作中的结论相左。

Pass@K 上限很高,但 Maj@N 达到上限很难

证明了 Self-Search 具有极高的上限后,我们尝试使用 Majority Voting 的方法进行投票选择。实验结果显示,仅仅依赖答案进行投票的方式无法逼近模型能力的上限,并且在增加参与 majority voting 的采样数量时,效果也不会获得进一步的提升。如何逼近 self-search 的 upper-bound 仍然是一个问题。

三、SSRL:自搜索强化学习

训练目标优化

标准的搜索 RL Search Agent 目标函数为:

由于 R(检索信息)来自策略本身,优化目标方程可以简化为一个标准的 GRPO 优化目标:

关键技术设计

1.信息掩码(Information Masking)

和之前的 Search RL 工作一样,我们在训练时屏蔽

标签内的 token,从而强制模型基于查询和推理生成答案,而非简单复制。

2.复合奖励函数

由于我们没有人为地干预模型的生成过程,因此需要一个 format reward 去规范模型的格式化输出,以更好地利用内部知识。同时,我们采用 outcome reward 防止 reward hacking,确保奖励的有效性。

实验结果

我们在 Llama 系列和 Qwen2. 5 系列上进行了训练,实验结果如下:

可以看到:

  • 利用 SSRL 训练后的 Llama 系列模型比 Search-R1 和 ZeroSearch 这种依赖外部引擎训练的模型可以取得更好的效果,然而在 Qwen 系列上,效果还有一定的差距。
  • 使用 SSRL 训练效率可以提升约 5.6 倍,并且在训练过程中,Training reward 持续增长,在训练 2000 多步时也并未观察到 collapse 现象。
  • 相比于 Base model,Instruct model 表现出更好的能力,我们将其归因为 SFT 阶段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任务是和真实世界高度相关的,因此能够结合真实搜索去实时地解决问题也是非常重要的。在这个工作中,我们探究了 SSRL 训练的模型是否具有在真实世界搜索并推理的能力,我们称为 Sim2Real。

替换 Self-Searched Knowledge 为 Online-Searched Information

首先我们进行实验,将前 K 个 Self-Searched Knowledge 用在线搜索获得的结果进行替换,我们发现

  • Sim2Real 会获得一定程度的效果提升,这显示了适当引入外部知识可以辅助模型思考。
  • 随着 K 的增加,Sim2Real 的效果不会持续增长,这也显示了模型内部知识的一定优越性,即高度压缩性和灵活性,对于同样的一个问题,模型 self-search 的知识可能更加贴合。

结合 Self-Generated Knowledge 和 Real-world Knowledge

此前我们已经证明了,真实世界的知识和模型生成的知识都各有其优越性,如何有机地在 SSRL 的背景下利用他们也是一个值得考虑的问题。我们首次提出 entropy-guided search,我们首先提取出 search content,如果呈现熵增趋势,表明模型具有不确定性,我们应当寻求外部工具的帮助,如果熵减,则使用模型生成的知识。实验结果如下:

实验结果显示,Search 次数相比于之前减少了 20%-42%,而实验效果可以取得一个 comparable 的表现,但这只是一个初步的尝试,更精细的结合方法仍是一个问题。

五、SSRL 和 TTRL 的结合

我们尝试 SSRL 和 TTRL 相结合,证明 SSRL 的泛化性和有效性。可以发现,当使用 TTRL 时,相比于 GRPO-based SSRL,我们可以取得更好的效果,甚至可以获得 67% 的效果提升。

甚至在最为困难的 BrowseComp 上,我们仍然能够获得稳定的增长。然而我们观察到,使用 TTRL 时,模型会变得过于 confident,模型塌缩到每个问题只会搜索一次,且模型会学会一个捷径,即先指出最后的答案,再通过 search 去 verify。此外,TTRL 也非常容易崩溃,Training reward 会极速下降到 0。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

橘子约定
2026-05-12 20:44:04
沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

荐史
2026-05-03 13:48:04
谭德塞:没有任何迹象显示汉坦病毒正出现大规模暴发

谭德塞:没有任何迹象显示汉坦病毒正出现大规模暴发

界面新闻
2026-05-12 16:42:35
特朗普访华前一天突然改口:我把中国“看错了”

特朗普访华前一天突然改口:我把中国“看错了”

奇思妙想生活家
2026-05-13 01:12:38
张艺谋找秦海璐拍《主角》,秦海璐不看剧本不谈钱,直接说时间

张艺谋找秦海璐拍《主角》,秦海璐不看剧本不谈钱,直接说时间

童叔不飙车
2026-05-12 12:23:25
河南一地党委主要领导调整!近日,多名市长任市委书记

河南一地党委主要领导调整!近日,多名市长任市委书记

上观新闻
2026-05-12 20:08:04
94岁周贤珍:一人过母亲节,住养老院精神矍铄,演员女儿在日本

94岁周贤珍:一人过母亲节,住养老院精神矍铄,演员女儿在日本

白面书誏
2026-05-11 18:24:20
“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

妍妍教育日记
2026-05-12 17:35:01
赵文卓浑圆的体型,膀大腰圆,这是真正练武的体型,泰森也是这样

赵文卓浑圆的体型,膀大腰圆,这是真正练武的体型,泰森也是这样

老吴教育课堂
2026-05-13 06:28:18
小勒布伦谈对王楚钦8连败:他不只克我一个!他是世界第1很难被打败

小勒布伦谈对王楚钦8连败:他不只克我一个!他是世界第1很难被打败

818体育
2026-05-12 23:35:17
曼联夏窗首签锁定!新赖斯同意 10 万周薪,阿森纳马竞全落后

曼联夏窗首签锁定!新赖斯同意 10 万周薪,阿森纳马竞全落后

一隅非生
2026-05-13 06:19:05
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
蛇鼠一窝!小S庆功宴具俊晔给S妈按摩,两人状态超级差,小S哭到脸肿

蛇鼠一窝!小S庆功宴具俊晔给S妈按摩,两人状态超级差,小S哭到脸肿

八卦王者
2026-05-12 15:24:17
美总统出访为何连排泄物都要打包带回?

美总统出访为何连排泄物都要打包带回?

观星赏月
2026-05-12 02:38:46
果然中华文明没有断代过!网友:其实很多方言和土语都是有典故的

果然中华文明没有断代过!网友:其实很多方言和土语都是有典故的

夜深爱杂谈
2026-05-08 10:49:58
导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

Thurman在昆明
2026-05-11 14:19:39
吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

另子维爱读史
2026-02-27 20:31:34
马光远:AI泡沫一定会破灭,而且一定会以非常惨烈的方式破灭!

马光远:AI泡沫一定会破灭,而且一定会以非常惨烈的方式破灭!

混沌录
2026-05-10 19:32:20
反转了!这锅,上海不背

反转了!这锅,上海不背

西莫的艺术宫殿
2026-05-13 00:33:02
夫妻俩把家产给儿子,赴上海投奔刚升副总的女儿,结果一下车蒙了

夫妻俩把家产给儿子,赴上海投奔刚升副总的女儿,结果一下车蒙了

三农老历
2026-05-13 00:05:38
2026-05-13 08:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12979文章数 142648关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
教育
家居
游戏
军事航空

数码要闻

SiFive推出Performance P570 Gen 3内核,完全符合RVA23规范

教育要闻

600分以下想要本科就业,如何报志愿

家居要闻

极简主义下的居住场域与空间

《共鸣:瘟疫传说传承》新截图 画面相当唯美!

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版