网易首页 > 网易号 > 正文 申请入驻

⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

0
分享至



近期,搜索型 Agent 的热度持续攀升⸺从 OpenAI 的 Deep Research 到各类学术探索,「多轮检索 + ⼯具调⽤ + 深度推理」的新范式正在深刻改变 AI 获取和整合信息的⽅式。但如何让这些 Agent 能⼒持续提升,达到接近⼈类的表现⽔平,仍然是⼀个核⼼挑战。

⽬前主流的训练⽅法是可验证奖励强化学习(RLVR):给定任务题⽬和标准答案,⽤最终预测结果的正确性作为奖励信号来训练 Agent。然⽽,这种⽅法⾯临着⼀个根本性的瓶颈:要让 Agent 变强,需要大量「高质量任务 + 可验证答案」的数据支撑。 而现实情况是:

  • 人工标注:成本⾼昂,特别是跨⼯具链的标注数据难以复⽤;
  • 离线合成:难以把控合成质量,仍依赖⼈⼯校验,且验证成本居⾼不下;
  • 扩展困境:即便有⾜够的离线合成任务,如何让训练难度⾃适应地跟随 Agent 能⼒提升?

那么,是否存在⼀种⽅法,能让 Agent 在无需人工标注的情况下,通过与外部真实世界的交互,自主生成训练任务、实现自我驱动的进化



  • 论⽂标题:Search Self-Play: Pushing the Frontier of Agent Capability without Supervision
  • 研究团队:阿⾥巴巴夸克基座⼤模型 × 北京⼤学 × 中⼭⼤学
  • ⽂章链接:https://arxiv.org/abs/2510.18821
  • 代码仓库:https://github.com/Alibaba-Quark/SSP=

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

通过⼤量试验,研究者发现经过 SSP ⽅法的训练,多个开源深度搜索模型(Search-R1、ZeroSearch、R-Search)都能在原本⽔平上进⼀步显著提升,在通⽤的 Qwen2.5-base 模型上,平均成功率更是达到了惊⼈的 26.4 分,并且整个训练过程没有⽤到任何监督信息!



方法概览

搜索⾃博弈的核⼼设计是让同⼀个⼤语⾔模型在不同的系统提示下,轮流扮演「出题者(Proposer)」和「解题者(Solver)」两个⻆⾊。



如上图所示,搜索⾃博弈分为三个阶段:

首先是问题生成阶段:Proposer 围绕⼀个参考答案,通过多轮搜索收集外部信息,反向构造出「有⼀定难度、但可解且答案唯⼀」的问题。

其次是协作验证阶段:为了防⽌ Proposer ⽣成对于 Solver 来说⽆解或模糊的问题(即「Reward Hack」现象),系统会将 Proposer 检索到的⽂档作为 RAG 材料,让 Solver 在有参考信息的条件下(不调⽤搜索⼯具)尝试回答。只有 Solver 能够正确作答的问题,才会进⼊对抗博弈。

最后是对抗求解阶段:通过验证的问题会交给 Solver,此时 Solver 可以使⽤完整的搜索功能,自行通过多轮推理、检索来解答问题。根据 Solver 的表现,Proposer 和 Solver 各⾃获得奖励信号并在线更新策略。

这种设计的巧妙之处在于:通过⼯具检索,问题⽣成不仅依赖于出题模型本身的能⼒,还可以利⽤海量外部的知识,突破了仅凭模型内部知识出题的局限;同时通过 solver 的协作验证,保证题⽬和答案的⼀致性和可解答性。

在「零和对抗」的训练中,出题者和解题者相互制衡、共同进化,形成⼀个动态提升的训练过程。

建模与优化:零和博弈机制

搜索⾃博弈可以建模为⼀个 min-max 优化问题。令 μ 为 Proposer 策略, ν 为 Solver 策略, a^∗ 为参考答案,Q (・)、A (・) 分别是问题和答案的提取函数,r (・,・) 为判定答案是否等价的⼆元奖励函数。那么 SSP 要优化的⽬标是:



这意味着 Proposer 希望最⼩化 Solver 的成功率(出更难的题),⽽ Solver 则希望最⼤化⾃⼰的成功率(提升解题能⼒)。

为了保证 Proposer ⽣成的问题既可解⼜唯⼀,研究引⼊了协作约束:将 Proposer 出题轨迹中所有的检索结果作为 RAG 材料提供给不调⽤搜索⼯具的 Solver,要求其在不使⽤搜索⼯具的开卷情况下能够正确解答,即:





在实际训练中,研究采⽤拒绝采样来优化这⼀约束:只有通过 RAG 验证的问题才会进⼊对抗阶段。随后对两个⻆⾊进⾏在线交替优化:

  • Solver 优化:采⽤ Group Relative Policy Optimization(GRPO)算法,在每个问题上进⾏多轨迹探索,以组均值作为基线来稳定优势估计并更新策略。
  • Proposer 优化:采⽤ REINFORCE 算法,根据「Solver 平均成功率」的互补信号(1−成功率)来优化,从⽽⽣成更具挑战性但仍可验证的问题。

两个⻆⾊在每⼀步训练中都在线更新,形成紧密耦合、持续共同进化的零和博弈。



主要实验结果

研究者在七⼤开放领域问答基准上对 SSP 进⾏了全⾯评估,包括 NQ、TriviaQA、PopQA、HotpotQA、2Wiki、MuSiQue 和 Bamboogle,覆盖了从单跳到多跳、从简单到复杂的各类问答任务。

实验设置涵盖了多个维度:「从零训练」(未经专⻔训练的基础模型)、「持续训练」(在已有能⼒基础上继续提升)、「跨架构泛化」(不同架构的模型)以及「不同⼤⼩的模型泛化」(扩展到更⼤规模模型)。

实验结果显示,在所有实验设置下,SSP 在问答基准测试中均持续超越基线方法, 表明 SSP 是⼀种⾼效且通⽤的增强智能体能⼒的⽅法。

SSP 在⽆任何外部监督的情况下,从零训练能给模型带来显著提升。这⼀增益在未经过指令微调的基础模型上尤为突出,例如,对 Qwen2.5-7B-Base 应⽤ SSP 可实现平均26.4 分的显著提升,在 TriviaQA 上更是获得40.4 分的惊人提升。SSP 对指令微调模型同样有效,将 Qwen2.5-7B-Instruct 的平均性能提升 8.0 分。

值得注意的是,SSP 可作为有效的持续训练策略,拓展 Agent 的能力边界。尽管⼀些强⼤的开源模型已在⾯向搜索的任务上经过⼤量数据的⼴泛训练(如 Search-R1、R-Search),SSP 仍能实现性能提升。这种性能增益在扩展到更⼤模型时依然保持:对 Qwen2.5-32B-Instruct 应⽤ SSP 后,其在七个基准测试中的五项达到SOTA 水平



启示与展望:让模型去「为难」模型

搜索⾃博弈并⾮局限于搜索任务。它代表了⼀种新的范式:

让智能体在自我出题与解题的循环中,自我验证、自我进化,最终达到 superhuman 的水平。

研究者相信,这种「⾃我博弈」的训练范式具有极⼤潜⼒:⼈⼯标注与校验的速度远远赶不上模型能⼒提升;让模型去「为难」模型将会成为未来⼤模型训练的必然选择。

未来,我们或许会看到越来越多类似 AlphaGo Zero 的时刻⸺模型不再依赖⼈类监督,⽽是通过⾃我竞争持续突破智能的上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
十年陪练无人知!何卓佳被罚分情绪失控,万万没想到郭焱会这样说

十年陪练无人知!何卓佳被罚分情绪失控,万万没想到郭焱会这样说

揽星河的笔记
2025-11-17 15:08:10
中国昭告全球,介入台海连着一块打!美国火速改口:支持两岸和统

中国昭告全球,介入台海连着一块打!美国火速改口:支持两岸和统

博览历史
2025-11-15 21:44:54
金鸡奖是“照妖镜”,让咏梅强颜欢笑的宋佳,揭露內娱的人情冷暖

金鸡奖是“照妖镜”,让咏梅强颜欢笑的宋佳,揭露內娱的人情冷暖

简单的视角
2025-11-17 16:48:41
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

环球时报国际
2025-11-16 15:34:27
出境游市场转向:赴日航线被叫停、日本游遇冷、东南亚接棒成热门出境游目的地

出境游市场转向:赴日航线被叫停、日本游遇冷、东南亚接棒成热门出境游目的地

潇湘晨报
2025-11-17 18:50:15
落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

来科点谱
2025-11-17 09:05:36
高市早苗做最坏打算,可她没想到:解放军没出手,最强帮手就来了

高市早苗做最坏打算,可她没想到:解放军没出手,最强帮手就来了

靓仔情感
2025-11-15 12:22:11
野村日本首席经济学家森田京平:预计日本经济增长将放缓

野村日本首席经济学家森田京平:预计日本经济增长将放缓

财经网
2025-11-17 15:03:12
被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

书雁飞史oh
2025-09-12 16:09:35
全运会游泳收官:浙江仍是大赢家,潘展乐3金+张展硕5金+汪顺4金

全运会游泳收官:浙江仍是大赢家,潘展乐3金+张展硕5金+汪顺4金

烧体坛
2025-11-17 22:53:14
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

品茗谈史论世事
2025-11-18 00:26:56
幡然醒悟!为时已晚。狂妄自大的李梦,难逃咎由自取的下场

幡然醒悟!为时已晚。狂妄自大的李梦,难逃咎由自取的下场

乡野小珥
2025-11-18 00:13:04
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

寒士之言本尊
2025-11-15 14:52:21
日本男人整日饮酒,为啥还能寿命世界第一?这几点一般人未必做到

日本男人整日饮酒,为啥还能寿命世界第一?这几点一般人未必做到

涵豆说娱
2025-11-05 16:38:21
商家失联!天津一品牌疑似跑路,已充值钱款无法找回!官方回应最新后续···

商家失联!天津一品牌疑似跑路,已充值钱款无法找回!官方回应最新后续···

天津人
2025-11-17 15:38:06
五个月大婴儿术后死亡后续:涉事医生简历被扒,已停诊,医院回应

五个月大婴儿术后死亡后续:涉事医生简历被扒,已停诊,医院回应

鋭娱之乐
2025-11-18 01:05:02
日本官员来华,希望中方搁置分歧,满足一个要求,并接受当面抗议

日本官员来华,希望中方搁置分歧,满足一个要求,并接受当面抗议

前沿天地
2025-11-18 00:19:25
宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

宣告退役14年后,张怡宁再破天花板,让整个乒乓球界“沉默”了

孤傲何妨初
2025-11-08 08:59:15
大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

诗意世界
2025-11-15 20:26:32
晚了!山西狗主反杀案大逆转,双方都后悔了,郭某妻子终于低下头

晚了!山西狗主反杀案大逆转,双方都后悔了,郭某妻子终于低下头

娱乐帝皇丸
2025-11-17 09:52:28
2025-11-18 02:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

韩国向日本表示强烈抗议 中方表态

头条要闻

韩国向日本表示强烈抗议 中方表态

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

旅游
游戏
房产
健康
教育

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

魔坛节奏丨魔兽操作之神,Happy 4-3力克浪漫夺得少帅杯冠军

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

血液科专家揭秘白血病七大误区

教育要闻

课后延时服务引发诸多矛盾,该考虑取消了!

无障碍浏览 进入关怀版