网易首页 > 网易号 > 正文 申请入驻

告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%

0
分享至



费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。为本文共同第一作者。

龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作者。

你是否想过,机器人也能像人一样,从失败中学习,不断自我提升

当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题,让机器人无法从失败中真正受益。





  • 论文链接:https://arxiv.org/pdf/2511.15605
  • 代码仓库:https://github.com/sii-research/siiRL
  • 技术文档:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

动机与贡献

近期研究表明,强化学习作为一种有效的后训练策略,能显著提升 VLA 模型在分布内与分布外的性能。在强化学习方法中,基于组优化的方法(如 GRPO)因其简洁高效的学习范式,已成为 VLA-RL 的重要技术路径,但其仍面临奖励信号稀疏的挑战。该问题在 VLA 领域尤为突出:多轮轨迹推理的计算成本极高,对失败轨迹信息的低效利用严重降低了训练效率。虽有研究尝试通过过程监督提供密集反馈,但这些方法通常依赖专家示范或人工任务分解来定义中间进展,其固有的扩展性局限与自主学习目标存在根本矛盾。



图 1:GRPO 等方法仅依赖稀疏的结果奖励,学习信号有限;手动设计的过程奖励(PRM)需要成本高昂的外部示范或任务微调;而 SRPO 框架提出了自参考范式,有效利用失败轨迹。

为应对奖励稀疏挑战,我们提出自我参考学习范式,以模型自身生成的成功轨迹作为参照标准,评估并引导失败尝试。与 GRPO 仅利用结果性奖励进行优势估计不同,我们的方法能更高效地利用完整轨迹批,这一范式将监督问题的核心从「如何获取专家标签」转变为「如何从自身成功经验中提取渐进式奖励」。

该范式的核心挑战在于如何量化成功与失败轨迹之间的行为相似性,以评估任务完成进度。传统像素级世界模型存在跨领域泛化能力不足或需要大量任务特定微调的问题,我们发现潜在世界表征天然捕捉了跨环境可迁移的行为进展模式,使得无需精确环境重建或领域特定训练即可实现鲁棒的轨迹比较。

基于以上洞察,我们提出自参考策略优化(SRPO),贡献主要包括以下三方面:

1. 提出 SRPO 框架,通过利用模型生成的成功轨迹为失败尝试提供渐进式奖励,缓解奖励稀疏性问题,消除对专家示范或任务特定工程的依赖。

2. 提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限与领域特定训练需求。

3. 实验结果表明,我们的方法在 LIBERO 基准测试中达到 SOTA 性能,在 LIBERO-Plus 上展现出强大泛化能力,并验证了奖励建模的真机可迁移性。

技术方案

如图 2 所示,SRPO 通过一种「向成功者学习」的直观方式,帮助机器人智能体在复杂任务中更有效地学习。该方案主要包含如下核心环节:



图 2: 策略推理过程产生的轨迹被收集到动态参考集中,行为相似性被建模为潜在世界空间中的轨迹距离,以此算出的渐进式奖励在 KL 正则化的约束下用于优势估计和策略优化。

1. 同策略轨迹收集:每次策略更新后,模型将推理时产生的所有轨迹数据存入动态参考集,并根据任务完成情况划分为「成功」与「失败」两组。

2. 世界表征提取与聚类:SRPO 将参考集中的每条轨迹都编码到世界模型的潜在表征空间中,该表征可以理解为对整个任务过程的浓缩概括,包含物理世界的本质规律。值得注意的是,这种表征完全基于对原始观测的直接建模,不依赖于人类发明的「语言」或「符号」作为中介。

3. 渐进式奖励及策略更新:对于参考集中的成功轨迹,SRPO 计算其表征聚类中心作为典型成功范式,通过计算每条失败轨迹到最近典型成功表征的距离来作为进度度量,距离越大说明与成功越远,即进度越低,通过批次归一化将距离变为 0 到 1 之间的连续渐进式奖励,进而使用 PPO 式的目标函数更新策略。

问题建模





世界进展奖励模型







自参考策略优化



优化目标:采用 PPO 风格的裁剪目标函数,并添加 KL 散度正则项以保持策略稳定性:





实验结果

仅用 200 步强化学习,成功率从 48.9% 飙升至 99.2%

表 1 表明,SRPO 仅凭第三视角图像与语言指令,不仅优于依赖 0/1 奖励的 SimpleVLA-RL、RLinf 等强化学习基线,也超越了需要人工设计阶段奖励的 TGRPO 等方案,超越多个依赖腕部视角、本体感知、3D 输入的复杂模型,突显 SRPO 在信息利用上的高效性。



表 1: SRPO 仅通过第三视角观测,在 LIBERO 上取得了 SOTA 性能。策略输入符号说明:T (第三视角),I (语言指令),P (本体数据),W (腕部视角),D (深度)。

泛化能力实测:一举超越 15w 步监督学习基线

表 2 表明,在更具挑战的 LIBERO-Plus 泛化测试中,SRPO 带来的性能提升高达 167%。即便未使用任何泛化场景数据进行训练,仅通过 SRPO 自身的探索学习,泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性测试基准上的表现显著优于其基线。

奖励信号:物理世界的「内行视角」

图 3 中,我们以「将马克杯放进微波炉并关门」(两阶段时序任务,仿真环境)和收拾桌面(五个重复性「抓取 - 放置」任务,真实环境)两个典型任务为例,展示 SRPO 在奖励构建上的优势:相较于易受视觉干扰,无法反映真实进度的像素级方法,或缺乏物理规律理解,奖励波动剧烈的通用视觉模型,我们的奖励曲线平滑、单调,符合物理世界进展规律



图 3: 仿真环境 (a-c) 和真实环境 (d-f) 中渐进式奖励对比图。

效率优势显著

效率方面,在图 4 中,对于 LIBERO 长时序任务,初始模型 One-shot SFT 成功率仅 17.3%,SRPO 仅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相较 150k 步的 full-shot SFT 模型性能提升 12.9%。



图 4: SRPO 与 GRPO 的训练效率比较。

奖励建模真机实测





图 5: 相较于 SFT 基线,SRPO 奖励构建方法在真实世界任务上成功率有显著提升。

激发创造性:让机器人学会「自主寻路」

此外,我们发现 SRPO 训练后,模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态,如图 6 所示。说明 SRPO 不仅能提升成功率,更能激发机器人超越示范、自主探索新的解决策略。



图 6: 模型推理过程中末端执行器轨迹记录图。



我们发现,SRPO 是其零成本的代替方案,是一个「免费的午餐」





结语

告别昂贵的数据标注和复杂的奖励设计,SRPO 仅凭模型自身的成功经验与物理世界常识,即可实现性能跃迁。无需训练价值模型,无需人工奖励工程,无需密集专家示范,SRPO 实现了让机器人从「模仿」走向「创造」,从「依赖」走向「自主」,为 VLA 强化学习开辟了一条充满希望的新路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
千万粉丝大V,微博账号被禁止关注

千万粉丝大V,微博账号被禁止关注

第一财经资讯
2026-03-26 12:19:47
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

36氪
2026-03-24 08:09:09
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

雪中风车
2026-03-26 09:16:02
安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

青橘罐头
2026-03-25 07:35:31
张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

映射生活的身影
2026-03-24 18:27:44
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

篮球资讯达人
2026-03-26 13:07:18
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

北海史记
2026-03-25 12:00:19
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
2026-03-26 14:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12602文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
房产
艺术
本地
公开课

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

本地新闻

春日吃花第三站——广东

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版