网易首页 > 网易号 > 正文 申请入驻

Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究

0
分享至



编辑|冷猫

众所周知,「超级智能」是 Meta 持续不变的宏大愿景。

为了尽早达到构建超级智能的目标,扎克伯格在这一年里可谓是大刀阔斧,搞得 Meta 研究部门鸡飞狗跳。

前 Meta FAIR 领军人物 Yann LeCun 锐评:「通往超级智能… 在我看来完全是胡扯,这条路根本行不通。」

不过,Meta 决定构建「超级智能」,一个真正能够超越人类专家水平的自主 AI 智能体,是人工智能研究中最具雄心的前沿目标。

AI 智能体执行任务最具代表性的落地领域就是编程了。目前,基于 LLM 的编程智能体已经展现出令人瞩目的自动化能力,但它们在本质上仍然受到一个根本性限制:高度依赖人类的训练数据

  • 学习自 GitHub 等真实编程数据;
  • 需要手工撰写的 Bug 报告、Issue 描述;
  • 用已有的测试用例来反馈。

这种依赖关系形成了一道关键瓶颈,使得这些系统只能不断打磨和复现既有人类知识,而难以真正走向自主发现新问题、探索新解法的道路。

为此,来自Meta FAIR 和 Meta TBD 实验室的的一项全新研究工作,打破了这一关键瓶颈,提出了SSR(自对弈 SWE-RL),旨在通过使软件代理能够自主生成学习经验,从而摆脱人类数据的限制

SSR 借鉴了 AlphaGo 等自对弈系统的成功经验,提出了一条通往「超智能软件智能体」的途径,这些智能体可以在无需现有问题描述、测试或人工监督的情况下,通过与真实代码库的交互来学习和改进。



  • 论文标题:Toward Training Superintelligent Software Agents through Self-Play SWE-RL
  • 论文链接:https://arxiv.org/pdf/2512.18552

在本文中,研究团队提出了 Self-play SWE-RL(SSR),作为迈向超级智能软件智能体训练范式的第一步。该方法几乎不依赖人工数据,仅假设能够访问带有源代码与依赖环境的沙盒化代码仓库,而不需要任何人工标注的 issue 或测试用例。

基于这些真实世界代码库,通过一种自博弈(self-play)的强化学习框架训练单一 LLM 智能体,使其能够不断自主注入并修复复杂度逐步提升的软件缺陷。在该过程中,每个缺陷均通过测试补丁(test patch)进行形式化描述,而非使用自然语言的 issue 描述。

SSR 的博弈方法

SSR 的核心思想,是让大模型智能体通过一个持续循环的过程来自我进化。



自对弈 SWE-RL(SSR)框架概览。

如图所示,同一个 LLM 策略被拆分成两个角色:Bug 注入智能体(bug-injection agent) 和 Bug 修复智能体(bug-solving agent)。这两个角色共享同一个容器化运行环境和同一套工具,但它们接收到的任务说明和目标约束不同。

具体来说:

Bug 注入智能体首先获得一个隔离的原始代码库环境,它的任务是通过生成一个包含必要文件的 “工件(artifact)” 来人为引入一个 Bug。随后系统会通过实际执行来验证该工件的一致性 —— 确保该 Bug 真实存在、可被复现。通过一致性验证的 Bug 工件会被视为有效样本,并提交给 Bug 修复智能体。



SSR 采用的两种主要 bug 注入策略:面向移除的方法(左)移除大量代码块,而历史感知方法(右)有选择地恢复 git 日志中的历史更改以引入真实的 bug 模式。

Bug 修复智能体则针对该 Bug 生成最终补丁,补丁是否成功由该 Bug 所定义的测试结果来验证。若修复失败,该失败过程会被视为一种 “高阶 Bug(higher-order bug)”,促使智能体在新的上下文中再次尝试。



智能体 bug 修复过程

最终,Bug 注入阶段的奖励信号 由一致性验证结果与修复结果共同构成,用于激励更高质量的 Bug 提案;Bug 修复阶段的奖励信号 则主要依赖测试结果。底层的同一个 LLM 策略模型会在这两种奖励信号的共同作用下进行联合更新。

评估与测试

研究团队在 SWE-bench Verified 与 SWE-Bench Pro 两个基准测试上,对基础模型(Base Model)、传统强化学习方法(Baseline RL),以及 SSR 方法进行了系统对比。

Baseline RL 与 CWM 中的标准智能体强化学习类似,可以访问自然语言问题描述、通过测试与失败测试信息,以及评测脚本,强化学习过程本质上只是检查生成的解决方案是否通过这些给定测试。

相比之下,SSR 仅接触最原始的环境镜像,模型必须在完全没有任何问题描述和测试用例的情况下,通过自我对弈来自主发现问题、构造解决方案并进行验证。



如图所示,实验结果呈现出两个关键现象:

首先,即便在完全没有任务相关训练数据的情况下,SSR 在整个训练过程中仍然表现出稳定而持续的自我提升能力。这表明,大型语言模型可以仅凭与原始代码库的交互,就逐步增强自身的软件工程能力(例如问题定位与修复能力)。

其次,在整个训练轨迹中,SSR 在两个基准测试上始终优于传统 Baseline RL。这意味着,由模型自主生成的学习任务,比人工构造的数据提供了更丰富、更有效的学习信号。

SWE-bench Verified 与 SWE-Bench Pro基准测试上,SSR 展现出显著的自我提升能力(分别提升 +10.4 与 +7.8 个百分点),并在整个训练过程中持续超越依赖人工数据的基线方法 —— 尽管模型的评测对象仍然是自然语言描述的问题,而这些描述在自博弈训练阶段完全未出现过。



Self-play SWE-RL 的消融实验结果。

消融实验结果表明,仅注入训练会降低整体性能,因为模型无法从任何 Bug 修复尝试中学习;仅修复训练同样表现较差,因为它缺乏由自我对弈持续生成的动态任务分布。

相比之下,自我对弈要求智能体不仅要修复 Bug,还要不断提出具有挑战性的 Bug,而这个过程本身就蕴含着丰富的学习内容:

  • 识别哪些测试可以通过;
  • 以有意义的方式破坏系统功能;
  • 甚至刻意削弱测试以隐藏 Bug。

这些行为不断扩展训练信号,并让模型持续暴露在新的失败模式之下。结果表明:一个持续进化、在线生成 Bug 并解决 Bug 的训练过程,是模型实现长期自我提升的关键。

结语

SSR 代表着在开发能够无需直接人工监督进行学习和改进的真正自主人工智能系统方面迈出了重要一步。

通过证明大型语言模型可以从真实世界的软件仓库中生成有意义的学习经验,这项工作为将人工智能训练扩展到人类策划数据集之外开辟了新的可能性。

该方法解决了当前人工智能开发中根本性的可扩展性限制。人工标注的训练数据昂贵、有限且可能存在偏差,为开发更强大的系统制造了瓶颈。SSR 的自生成课程有可能使训练在比目前通过传统数据收集方法更可行的问题上,数量级地更多样化和更具挑战性。



随着 AI 系统能力日益增强,从真实世界环境中自主学习的能力对于开发能够在复杂问题解决场景中真正提供帮助甚至主导的智能体变得至关重要。SSR 的演示表明这种自主学习在软件领域是可行的,这为在其他技术领域实现类似能力指明了有前景的方向,尤其是在那些正式验证和迭代改进可行的领域。

尽管仍属早期成果,这些结果表明:未来的软件智能体或将能够在真实代码仓库中自主获取海量学习经验,最终发展为在系统理解、复杂问题求解乃至从零构建全新软件方面超越人类能力的超级智能系统。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

她时尚丫
2026-02-17 21:56:13
谢什科8000公里特训曝光!助其狂奔65米制胜,能跑能跳不只靠天赋

谢什科8000公里特训曝光!助其狂奔65米制胜,能跑能跳不只靠天赋

罗米的曼联博客
2026-02-27 09:35:00
开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

古史青云啊
2026-02-26 19:45:46
国际篮联重罚!中国男篮遇到2次误判细节披露,中国篮协应上诉

国际篮联重罚!中国男篮遇到2次误判细节披露,中国篮协应上诉

现代小青青慕慕
2026-02-27 06:53:55
宋太宗临死前挖了个大坑,差点把亲儿子埋进去,幸亏吕端反应快

宋太宗临死前挖了个大坑,差点把亲儿子埋进去,幸亏吕端反应快

勇哥读史
2026-02-27 07:42:05
你抢不到的RTX5090,还在厨子、电工和铁匠手里?

你抢不到的RTX5090,还在厨子、电工和铁匠手里?

蓝鲸新闻
2026-02-25 14:46:26
WTT大满贯!八强出炉,日乒两人止步,张本美和强势,王曼昱压力大增

WTT大满贯!八强出炉,日乒两人止步,张本美和强势,王曼昱压力大增

篮球看比赛
2026-02-26 16:34:46
关键局8-10大逆转!陈垣宇3-1世界杯冠军,国乒保住会师决赛希望

关键局8-10大逆转!陈垣宇3-1世界杯冠军,国乒保住会师决赛希望

钉钉陌上花开
2026-02-27 14:26:54
鲁比奥认错了!恳求中国解除制裁,给他一个陪特朗普访华的机会

鲁比奥认错了!恳求中国解除制裁,给他一个陪特朗普访华的机会

谈史论天地
2026-02-27 14:28:46
结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

萧鑟科普解说
2026-02-26 06:07:11
世体:因为与维尼修斯交换球衣,本菲卡球迷要求开除卡布拉尔

世体:因为与维尼修斯交换球衣,本菲卡球迷要求开除卡布拉尔

懂球帝
2026-02-26 22:20:28
日版《水浒传》开播,看得我脸都红了

日版《水浒传》开播,看得我脸都红了

i书与房
2026-02-26 14:51:41
莫迪:印度“坚定地”站在以色列一边

莫迪:印度“坚定地”站在以色列一边

参考消息
2026-02-26 14:00:05
“月嫂是上午走的,娃是下午崩的”,月嫂,并没有想象中那么好

“月嫂是上午走的,娃是下午崩的”,月嫂,并没有想象中那么好

艾米儿育儿
2026-02-26 10:10:42
南通人季琦,辞任携程董事后,捐了1个亿!

南通人季琦,辞任携程董事后,捐了1个亿!

创客公社-江苏第一创投媒体
2026-02-26 20:08:42
比电子布还猛!光纤价格飙涨80%   这7大寡头迎戴维斯双击

比电子布还猛!光纤价格飙涨80% 这7大寡头迎戴维斯双击

元芳说投资
2026-02-26 06:00:08
你是啥时候对自家小孩失望的?网友:我要有这儿子,他爱滚哪滚哪

你是啥时候对自家小孩失望的?网友:我要有这儿子,他爱滚哪滚哪

带你感受人间冷暖
2026-02-11 16:00:19
吞下封锁的恶果,为抗衡中美AI,印度放宽了对中国电力限制

吞下封锁的恶果,为抗衡中美AI,印度放宽了对中国电力限制

王新喜
2026-02-27 09:19:07
小S接棒大S代言复出,广告台词被联想,疑似内涵马筱梅

小S接棒大S代言复出,广告台词被联想,疑似内涵马筱梅

小娱乐悠悠
2026-02-27 11:36:04
连爆4场冷门!西部彻底乱了,火箭渔翁得利,杜兰特要迎甜蜜赛程

连爆4场冷门!西部彻底乱了,火箭渔翁得利,杜兰特要迎甜蜜赛程

巴叔GO聊体育
2026-02-27 12:52:08
2026-02-27 15:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142570关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

中虎跳峡游客落水 目击者:其女友称"回去就要结婚的"

头条要闻

中虎跳峡游客落水 目击者:其女友称"回去就要结婚的"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

时尚
家居
亲子
健康
教育

今年春天最美搭配:西装+半裙,怎么穿都好看!

家居要闻

素色肌理 品意式格调

亲子要闻

别让“语迟必显贵”耽误了孩子,晚说话不一定是好事儿

转头就晕的耳石症,能开车上班吗?

教育要闻

教育部实施学生体质强健计划,减轻用眼负担,把体育课还给孩子们

无障碍浏览 进入关怀版