网易首页 > 网易号 > 正文 申请入驻

碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架

0
分享至



张家辉,复旦大学大数据学院博士三年级学生,研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化学习后训练,4D-VLA (NeurIPS 25) 第一作者。黄泽,复旦大学大数据学院博士三年级学生,主要从事机器人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。

张力,复旦大学大数据学院教授,上海创智学院全时导师,担任本论文的通讯作者。主页:https://lzrobots.github.io

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

然而,当前大多数 VLA 仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败。强化学习(RL)从回报信号出发直接优化任务成功率,按理应当能够缓解这一目标错配问题,但在真实机器人上开展在线 RL 成本高昂,并行执行受限,还伴随大量重置与标注开销;以 π*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈(需要一直有人类介入,一旦出现错误轨迹就人类接管操作,记录相应的数据);另一方面,基于传统物理引擎(MuJoCo、Isaac sim)的强化学习又难以同时兼顾逼真度、场景多样性与工程可用性。

针对上述问题,研究团队提出ProphRL 框架采用大规模预训练的世界模型 Prophet 作为「面向真实环境」的视频级模拟器,并配合专为流式动作头设计的在线 RL 算法 Flow-Action-GRPO 与 FlowScale,在虚拟但物理一致的环境中直接对 VLA 策略进行强化学习优化,再将优化后的策略部署到真实机器人上。如此,策略改进的主要探索过程可以在世界模型中完成,在兼顾物理可信度的同时显著降低真实交互成本,为大模型 VLA 的实际落地提供了更可行的技术路径。如图所示:



实验结果显示,ProphRL在多个公开基准上为各类 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)带来 5–17% 的成功率提升,在真实机器人实验中进一步取得 24–30% 的大幅度成功率提升



  • 论文地址:https://arxiv.org/pdf/2511.20633
  • 项目主页:https://logosroboticsgroup.github.io/ProphRL

研究背景

模仿学习的长期回报错配

近年的工作表明,VLA 在自然语言指令和视觉观测的驱动下,已经可以完成台面整理、物体抓取、工具操作等多步任务。但绝大多数方法仍依赖行为克隆式监督训练,只关心轨迹像不像示范,并未真正对齐任务最终是否成功。因此,模型在训练分布附近表现良好,一旦场景略有变化或操作链条变长,就容易因误差累积而导致失败。

真实机器人上做在线 RL 很难规模化

从原理上看,为 VLA 叠加一个 RL 模块,让策略通过在线交互从成功或失败中学习,是缓解上述错配的自然途径。但在真实机器人上实践 RL 成本极高:每次试验都消耗时间和硬件寿命,需要严格的安全防护和人工监控,多机器人并行基础设施投入也非常大,许多精细任务还依赖人工重置与干预。综合来看,直接在真机上大规模跑 RL 并不现实。

传统物理仿真器的局限

另一条路线是依托 MuJoCo、Isaac sim 等物理引擎,在仿真环境中完成 RL,再做 sim-to-real 迁移。然而,对以 RGB 图像为输入的 VLA 而言,要搭建一个同时兼顾视觉逼真度、接触动力学精度和物体多样性的仿真场景,工程成本极高,且仍难以准确覆盖如布料折叠、纸巾拉取等复杂任务。这使得基于传统仿真器的大规模 VLA 后训练在实际中难以落地。

数据驱动世界模型的机会与不足

近年来,数据驱动世界模型开始在机器人领域兴起:给定初始图像和底层机械臂动作指令,模型可以预测未来机械臂操作视频,从而在「想象空间」里让策略反复练习。这类方法天然与 VLA 的视觉接口兼容,有望成为连接 RL 与真实世界的新桥梁。但现有世界模型通常局限于单场景或单任务,跨数据集、跨机器人形态的泛化能力有限;与 VLA 结合时,世界模型也多被当作简单的数据增强来支撑 SFT,而尚未形成一个可迁移、可适配、能够真正支撑 RL 的通用模拟器

ProphRL :基于世界模型的在线强化学习



Prophet:大规模预训练的动作到视频世界模型

研究团队构建的世界模型 Prophet,目标是在统一接口下学习从动作序列到未来操作视频的映射。其核心结构是视频扩散模型,在推理时输入历史帧、当前参考帧,以及未来一段时间的动作序列,输出与真实机器人执行过程对齐的长时操作视频。为更好地对齐动作与几何信息,研究团队采用双重动作条件:一方面将共 7 维的末端执行器位姿增量和夹爪开合编码为全局标量嵌入;另一方面将末端执行器动作投影到相机平面,并渲染为动作帧,为模型提供显式位姿与运动方向线索。此外,研究团队引入 FramePack 式的历史记忆机制,在控制计算成本的同时,持续追踪接触过程中的几何一致性和物体状态演化。

大规模异构数据上的预训练与少样本微调

为了让 Prophet 具备通用机器人直觉,研究团队在 AgiBot、DROID、LIBERO 以及筛选后的 Open-X 等多源数据上进行统一预训练,覆盖多种机械臂、视角、场景和操作风格。训练时,对坐标系、夹爪语义和动作参数化进行统一建模,避免不同数据源之间的结构冲突。在此基础上,面对新场景、新物体或新任务时,只需百级别真实轨迹,通过 快速且轻量的微调,即可让 Prophet 快速适配,同时保持对符合真实世界物理结果生成能力的延续。



以下两个视频为 Prophet 的交互 demo,通过选择具体动作,生成对应动作的视频:





光流引导的控制一致性评估协议

传统视频生成评估指标(PSNR、SSIM 等)主要衡量画面清晰度和逼真度,却难以判断机器人有没有按预期动作。为此,研究团队提出光流引导的评估协议:在真实视频与 Prophet 生成视频之间计算像素级光流,并对比两组光流之间的一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐。该指标与感知质量互为补充,为在世界模型中开展 RL 提供了更贴近控制需求的反馈信号。

FA-GRPO 与 FlowScale:为流式动作头量身打造的 RL 算法

在策略层面,研究团队面向带 flow-based 动作头的 VLA,这类策略通过多步去噪生成连续动作,内部包含大量中间流步。现有 Flow-GRPO 将每个流步都当作独立动作,既放大了梯度方差,也削弱了与环境反馈之间的对应关系,训练容易不稳定。为此,研究团队做了两点改进:

  • Flow-action-GRPO(FA-GRPO):在动作而不是流步层面构造 PPO 比例,将所有内部流步的对数似然先聚合成单一环境动作的概率,再与优势函数结合。这样不改动策略结构,只重新组织梯度信号,使长时序控制下的信用分配更贴近真实环境反馈。
  • FlowScale:利用噪声调度,为每个流步乘上与噪声尺度相关的权重系数:适度放大高噪声的早期步骤,抑制低噪声但梯度极大的后期步骤,在不改变目标函数的前提下平衡各流步对整体梯度的贡献,显著提升训练稳定性。





结合 Prophet 提供的长视野视频模拟器,VLA 策略在其中用 FA-GRPO 和 FlowScale 反复训练,再迁移到真实机器人上执行,形成「在想象中学,在现实中用」的完整闭环。

Reward model:基于视频 - 语言的任务成功评估

在 ProphRL 中,奖励不再依赖手工设计的几何距离,而是由 视觉–语言奖励模型(Reward model) 直接根据「整条轨迹是否完成任务」给分。具体来说,reward model 以任务文本和整段执行视频为输入,输出一个标量得分,并在一个 batch 内做归一化后,作为整条轨迹上各步的 advantage,送入 FA-GRPO 和 FlowScale。

  • LIBERO 任务:在物理仿真环境中可以直接得到成功 / 失败标签及完成步数。研究团队将每条轨迹渲染成视频,用这些带标签的视频微调 Qwen2.5-VL-7B,得到一个二分类 RM,用于判断任务是否完成,并估计完成时刻,从而做时间掩码。
  • BRIDGE 与真实机器人任务:真实和离线数据上手动标注代价很高,因此研究团队采用 Qwen2.5-VL-72B 作为零样本 reward model。给定任务说明和精心设计的提示词,研究团队从每条轨迹中均匀采样若干帧,请模型做逐步推理并给出「成功 / 失败」判断,多次评估后取多数票作为最终标签,用于驱动在世界模型和真机上的强化学习。

最终,世界模型、VLA 基座模型、奖励模型,通过在线强化学习(FA-GRPO & FlowScale)构成数据闭环,为具身场景落地提供切实可行的解决方案。如下图所示:



实验验证:从基准任务到真实机器人

在实验部分,研究团队围绕三个维度系统评估 ProphRL:

世界模型能力:在 AgiBot、DROID、LIBERO 和 BRIDGE 等多数据集上,预训练的 Prophet 就能在视觉效果和动作一致性上同时取得领先表现,其中 BRIDGE 在预训练阶段是完全未参与的数据集。在 BRIDGE 少样本场景中,经过少量示范的微调后,Prophet 依然可以执行视觉上未出现过的新物体、新组合动作,体现出良好的跨场景、跨物体泛化能力。

生成质量超越 Nvidia 的 Cosmos 与上海智元的 Genie-envisioner:









在世界模型中的 RL 效果:研究团队选取多种 VLA 模型(如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ),在 Prophet 中对每个任务分别进行强化学习训练。对比仅做监督微调,加入 FA-GRPO + FlowScale 后,在多项 benchmark 与真实任务中成功率都有显著提升。





真实机器人上的验证:基于 UR30e 机械臂,研究团队设计了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四个桌面操作任务,覆盖刚体抓取、容器放置和柔性物体拉取等难以精确仿真的场景。将 Prophet 中训练得到的策略迁移到真机后,ProphRL 相比纯监督微调在所有任务的平均成功率上都带来约 24–30% 的成功率提升。



VLA 或者 VLA + SFT 后训练 在做的其实是 imitate 训练数据集,而 世界模型 + RL 能够学习并加强到训练数据中不存在或者弱存在的成功轨迹,如下视频所示:





总的来看,目前机器人策略仍以基于示范的监督微调(SFT)为主,在分布偏移和长时序任务下往往难以保持稳定表现,而强化学习则是提升鲁棒性和适应能力的关键手段。

不过,以 Pi*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈。

ProphRL 以世界模型 Prophet 为核心,先在大规模真实轨迹上学习从动作到未来观测的动力学,再在这一数据驱动的模拟环境中对 VLA 策略执行 RL 优化,最后将策略迁移到真实机器人上进行验证。

这样的设计使得策略改进的主要探索过程可以在世界模型中完成,在兼顾物理一致性的同时减少对真机交互的依赖,并在实验中对多类 VLA 模型中带来了稳定且显著的性能提升,表明「世界模型 + RL」让具身智能在真实场景中落地可期!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对越反击战撤军前夕,200多名士兵突然投降越南,连累整个50军被裁撤

对越反击战撤军前夕,200多名士兵突然投降越南,连累整个50军被裁撤

寄史言志
2026-03-26 20:30:13
家长违停孩子开门杀撞人后逃逸?交警回应

家长违停孩子开门杀撞人后逃逸?交警回应

中国新闻周刊
2026-03-26 14:46:51
为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

装修秀
2026-03-26 14:05:47
老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

千秋文化
2026-03-24 21:30:09
张雪峰追悼会28日举行!拒绝鲜花挽联一切从简,生前竟捐了1200多万!

张雪峰追悼会28日举行!拒绝鲜花挽联一切从简,生前竟捐了1200多万!

舟望停云
2026-03-26 23:31:16
曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

美家指南
2026-03-06 10:31:36
詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

罗说NBA
2026-03-26 22:15:56
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

芳芳历史烩
2026-03-26 23:31:52
记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

懂球帝
2026-03-26 15:47:08
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

黄胜友
2026-03-26 17:58:23
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

闪电新闻
2026-03-27 00:18:15
给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

爱下厨的阿酾
2026-03-26 20:14:43
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
2026-03-27 00:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
房产
健康
艺术

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

无障碍浏览 进入关怀版