网易首页 > 网易号 > 正文 申请入驻

告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%

0
分享至



费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。为本文共同第一作者。

龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作者。

你是否想过,机器人也能像人一样,从失败中学习,不断自我提升

当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题,让机器人无法从失败中真正受益。





  • 论文链接:https://arxiv.org/pdf/2511.15605
  • 代码仓库:https://github.com/sii-research/siiRL
  • 技术文档:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

动机与贡献

近期研究表明,强化学习作为一种有效的后训练策略,能显著提升 VLA 模型在分布内与分布外的性能。在强化学习方法中,基于组优化的方法(如 GRPO)因其简洁高效的学习范式,已成为 VLA-RL 的重要技术路径,但其仍面临奖励信号稀疏的挑战。该问题在 VLA 领域尤为突出:多轮轨迹推理的计算成本极高,对失败轨迹信息的低效利用严重降低了训练效率。虽有研究尝试通过过程监督提供密集反馈,但这些方法通常依赖专家示范或人工任务分解来定义中间进展,其固有的扩展性局限与自主学习目标存在根本矛盾。



图 1:GRPO 等方法仅依赖稀疏的结果奖励,学习信号有限;手动设计的过程奖励(PRM)需要成本高昂的外部示范或任务微调;而 SRPO 框架提出了自参考范式,有效利用失败轨迹。

为应对奖励稀疏挑战,我们提出自我参考学习范式,以模型自身生成的成功轨迹作为参照标准,评估并引导失败尝试。与 GRPO 仅利用结果性奖励进行优势估计不同,我们的方法能更高效地利用完整轨迹批,这一范式将监督问题的核心从「如何获取专家标签」转变为「如何从自身成功经验中提取渐进式奖励」。

该范式的核心挑战在于如何量化成功与失败轨迹之间的行为相似性,以评估任务完成进度。传统像素级世界模型存在跨领域泛化能力不足或需要大量任务特定微调的问题,我们发现潜在世界表征天然捕捉了跨环境可迁移的行为进展模式,使得无需精确环境重建或领域特定训练即可实现鲁棒的轨迹比较。

基于以上洞察,我们提出自参考策略优化(SRPO),贡献主要包括以下三方面:

1. 提出 SRPO 框架,通过利用模型生成的成功轨迹为失败尝试提供渐进式奖励,缓解奖励稀疏性问题,消除对专家示范或任务特定工程的依赖。

2. 提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限与领域特定训练需求。

3. 实验结果表明,我们的方法在 LIBERO 基准测试中达到 SOTA 性能,在 LIBERO-Plus 上展现出强大泛化能力,并验证了奖励建模的真机可迁移性。

技术方案

如图 2 所示,SRPO 通过一种「向成功者学习」的直观方式,帮助机器人智能体在复杂任务中更有效地学习。该方案主要包含如下核心环节:



图 2: 策略推理过程产生的轨迹被收集到动态参考集中,行为相似性被建模为潜在世界空间中的轨迹距离,以此算出的渐进式奖励在 KL 正则化的约束下用于优势估计和策略优化。

1. 同策略轨迹收集:每次策略更新后,模型将推理时产生的所有轨迹数据存入动态参考集,并根据任务完成情况划分为「成功」与「失败」两组。

2. 世界表征提取与聚类:SRPO 将参考集中的每条轨迹都编码到世界模型的潜在表征空间中,该表征可以理解为对整个任务过程的浓缩概括,包含物理世界的本质规律。值得注意的是,这种表征完全基于对原始观测的直接建模,不依赖于人类发明的「语言」或「符号」作为中介。

3. 渐进式奖励及策略更新:对于参考集中的成功轨迹,SRPO 计算其表征聚类中心作为典型成功范式,通过计算每条失败轨迹到最近典型成功表征的距离来作为进度度量,距离越大说明与成功越远,即进度越低,通过批次归一化将距离变为 0 到 1 之间的连续渐进式奖励,进而使用 PPO 式的目标函数更新策略。

问题建模





世界进展奖励模型







自参考策略优化



优化目标:采用 PPO 风格的裁剪目标函数,并添加 KL 散度正则项以保持策略稳定性:





实验结果

仅用 200 步强化学习,成功率从 48.9% 飙升至 99.2%

表 1 表明,SRPO 仅凭第三视角图像与语言指令,不仅优于依赖 0/1 奖励的 SimpleVLA-RL、RLinf 等强化学习基线,也超越了需要人工设计阶段奖励的 TGRPO 等方案,超越多个依赖腕部视角、本体感知、3D 输入的复杂模型,突显 SRPO 在信息利用上的高效性。



表 1: SRPO 仅通过第三视角观测,在 LIBERO 上取得了 SOTA 性能。策略输入符号说明:T (第三视角),I (语言指令),P (本体数据),W (腕部视角),D (深度)。

泛化能力实测:一举超越 15w 步监督学习基线

表 2 表明,在更具挑战的 LIBERO-Plus 泛化测试中,SRPO 带来的性能提升高达 167%。即便未使用任何泛化场景数据进行训练,仅通过 SRPO 自身的探索学习,泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性测试基准上的表现显著优于其基线。

奖励信号:物理世界的「内行视角」

图 3 中,我们以「将马克杯放进微波炉并关门」(两阶段时序任务,仿真环境)和收拾桌面(五个重复性「抓取 - 放置」任务,真实环境)两个典型任务为例,展示 SRPO 在奖励构建上的优势:相较于易受视觉干扰,无法反映真实进度的像素级方法,或缺乏物理规律理解,奖励波动剧烈的通用视觉模型,我们的奖励曲线平滑、单调,符合物理世界进展规律



图 3: 仿真环境 (a-c) 和真实环境 (d-f) 中渐进式奖励对比图。

效率优势显著

效率方面,在图 4 中,对于 LIBERO 长时序任务,初始模型 One-shot SFT 成功率仅 17.3%,SRPO 仅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相较 150k 步的 full-shot SFT 模型性能提升 12.9%。



图 4: SRPO 与 GRPO 的训练效率比较。

奖励建模真机实测





图 5: 相较于 SFT 基线,SRPO 奖励构建方法在真实世界任务上成功率有显著提升。

激发创造性:让机器人学会「自主寻路」

此外,我们发现 SRPO 训练后,模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态,如图 6 所示。说明 SRPO 不仅能提升成功率,更能激发机器人超越示范、自主探索新的解决策略。



图 6: 模型推理过程中末端执行器轨迹记录图。



我们发现,SRPO 是其零成本的代替方案,是一个「免费的午餐」





结语

告别昂贵的数据标注和复杂的奖励设计,SRPO 仅凭模型自身的成功经验与物理世界常识,即可实现性能跃迁。无需训练价值模型,无需人工奖励工程,无需密集专家示范,SRPO 实现了让机器人从「模仿」走向「创造」,从「依赖」走向「自主」,为 VLA 强化学习开辟了一条充满希望的新路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者问老干妈创始人陶华碧:为什么一直用这家玻璃厂的玻璃瓶?

记者问老干妈创始人陶华碧:为什么一直用这家玻璃厂的玻璃瓶?

百态人间
2026-01-03 16:49:18
硬骨柔肠4:千金散尽,志不改节

硬骨柔肠4:千金散尽,志不改节

金昔说故事
2026-02-15 20:43:32
偷鸡摸狗,好赌成性?离过年仅四天,何庆魁的体面被儿子撕得粉碎

偷鸡摸狗,好赌成性?离过年仅四天,何庆魁的体面被儿子撕得粉碎

笔墨V
2026-02-14 18:34:18
我国国歌有一句歌词差点被删,毛主席却说:不能删,大有好处!

我国国歌有一句歌词差点被删,毛主席却说:不能删,大有好处!

兴趣知识
2026-01-30 01:54:32
“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

谈史论天地
2026-02-06 19:00:03
许家印案“掀翻天”,涉案人员可能远超当年赖昌星的特大走私案

许家印案“掀翻天”,涉案人员可能远超当年赖昌星的特大走私案

小莜读史
2026-01-15 20:44:16
铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

爱吃醋的猫咪
2026-02-01 19:36:46
谢霆锋手持荣耀Magic V6现身!史上电池最大的折叠屏旗舰来了

谢霆锋手持荣耀Magic V6现身!史上电池最大的折叠屏旗舰来了

快科技
2026-02-15 17:06:04
别信“年后必涨”!有色金属的行情,从来不是喊出来的

别信“年后必涨”!有色金属的行情,从来不是喊出来的

蓝色海边
2026-02-15 16:17:32
万斯言论惹众怒!德法领导人联手痛批:别把美式分裂带到欧洲

万斯言论惹众怒!德法领导人联手痛批:别把美式分裂带到欧洲

独醉笑清风
2026-02-15 19:25:12
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

晨光苏醒a
2026-02-13 09:16:50
加代一生中有多少情妇?今天我们就来说说这位——风月场里的老鸨

加代一生中有多少情妇?今天我们就来说说这位——风月场里的老鸨

阿柒故事汇
2026-01-28 12:16:57
杜若溪带公婆去娘家过年,坐18个小时绿皮车,一家八口同框很幸福

杜若溪带公婆去娘家过年,坐18个小时绿皮车,一家八口同框很幸福

八怪娱
2026-02-13 19:51:53
军用罐头,为何宁愿让战士刀劈斧砍,也不要拉环?

军用罐头,为何宁愿让战士刀劈斧砍,也不要拉环?

观锐器
2025-12-29 19:18:48
52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

她时尚丫
2026-02-13 22:55:36
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
两战36+9效率超高!李月汝替身成长为女篮真核 宫鲁鸣慧眼识珠

两战36+9效率超高!李月汝替身成长为女篮真核 宫鲁鸣慧眼识珠

颜小白的篮球梦
2026-02-15 20:57:57
上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

奇闻故事汇1989
2024-11-15 21:35:03
马卡盛赞阿诺德:他是皇马进攻节拍器,弧线长传媲美贝克汉姆

马卡盛赞阿诺德:他是皇马进攻节拍器,弧线长传媲美贝克汉姆

懂球帝
2026-02-15 20:05:20
谷爱凌发声:这不公平

谷爱凌发声:这不公平

中国日报
2026-02-15 15:49:36
2026-02-15 21:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

美国常驻北约代表:中国一个电话就能搞定俄乌冲突

头条要闻

美国常驻北约代表:中国一个电话就能搞定俄乌冲突

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

教育
亲子
家居
本地
军事航空

教育要闻

小升初附加题,几乎全军覆没,求面积

亲子要闻

3岁女儿在奶奶家吃到好吃的,打包回家带给妈妈吃,爸爸羡慕坏了

家居要闻

中古雅韵 乐韵伴日常

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版