网易首页 > 网易号 > 正文 申请入驻

碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架

0
分享至



张家辉,复旦大学大数据学院博士三年级学生,研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化学习后训练,4D-VLA (NeurIPS 25) 第一作者。黄泽,复旦大学大数据学院博士三年级学生,主要从事机器人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。

张力,复旦大学大数据学院教授,上海创智学院全时导师,担任本论文的通讯作者。主页:https://lzrobots.github.io

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

然而,当前大多数 VLA 仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败。强化学习(RL)从回报信号出发直接优化任务成功率,按理应当能够缓解这一目标错配问题,但在真实机器人上开展在线 RL 成本高昂,并行执行受限,还伴随大量重置与标注开销;以 π*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈(需要一直有人类介入,一旦出现错误轨迹就人类接管操作,记录相应的数据);另一方面,基于传统物理引擎(MuJoCo、Isaac sim)的强化学习又难以同时兼顾逼真度、场景多样性与工程可用性。

针对上述问题,研究团队提出ProphRL 框架采用大规模预训练的世界模型 Prophet 作为「面向真实环境」的视频级模拟器,并配合专为流式动作头设计的在线 RL 算法 Flow-Action-GRPO 与 FlowScale,在虚拟但物理一致的环境中直接对 VLA 策略进行强化学习优化,再将优化后的策略部署到真实机器人上。如此,策略改进的主要探索过程可以在世界模型中完成,在兼顾物理可信度的同时显著降低真实交互成本,为大模型 VLA 的实际落地提供了更可行的技术路径。如图所示:



实验结果显示,ProphRL在多个公开基准上为各类 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)带来 5–17% 的成功率提升,在真实机器人实验中进一步取得 24–30% 的大幅度成功率提升



  • 论文地址:https://arxiv.org/pdf/2511.20633
  • 项目主页:https://logosroboticsgroup.github.io/ProphRL

研究背景

模仿学习的长期回报错配

近年的工作表明,VLA 在自然语言指令和视觉观测的驱动下,已经可以完成台面整理、物体抓取、工具操作等多步任务。但绝大多数方法仍依赖行为克隆式监督训练,只关心轨迹像不像示范,并未真正对齐任务最终是否成功。因此,模型在训练分布附近表现良好,一旦场景略有变化或操作链条变长,就容易因误差累积而导致失败。

真实机器人上做在线 RL 很难规模化

从原理上看,为 VLA 叠加一个 RL 模块,让策略通过在线交互从成功或失败中学习,是缓解上述错配的自然途径。但在真实机器人上实践 RL 成本极高:每次试验都消耗时间和硬件寿命,需要严格的安全防护和人工监控,多机器人并行基础设施投入也非常大,许多精细任务还依赖人工重置与干预。综合来看,直接在真机上大规模跑 RL 并不现实。

传统物理仿真器的局限

另一条路线是依托 MuJoCo、Isaac sim 等物理引擎,在仿真环境中完成 RL,再做 sim-to-real 迁移。然而,对以 RGB 图像为输入的 VLA 而言,要搭建一个同时兼顾视觉逼真度、接触动力学精度和物体多样性的仿真场景,工程成本极高,且仍难以准确覆盖如布料折叠、纸巾拉取等复杂任务。这使得基于传统仿真器的大规模 VLA 后训练在实际中难以落地。

数据驱动世界模型的机会与不足

近年来,数据驱动世界模型开始在机器人领域兴起:给定初始图像和底层机械臂动作指令,模型可以预测未来机械臂操作视频,从而在「想象空间」里让策略反复练习。这类方法天然与 VLA 的视觉接口兼容,有望成为连接 RL 与真实世界的新桥梁。但现有世界模型通常局限于单场景或单任务,跨数据集、跨机器人形态的泛化能力有限;与 VLA 结合时,世界模型也多被当作简单的数据增强来支撑 SFT,而尚未形成一个可迁移、可适配、能够真正支撑 RL 的通用模拟器

ProphRL :基于世界模型的在线强化学习



Prophet:大规模预训练的动作到视频世界模型

研究团队构建的世界模型 Prophet,目标是在统一接口下学习从动作序列到未来操作视频的映射。其核心结构是视频扩散模型,在推理时输入历史帧、当前参考帧,以及未来一段时间的动作序列,输出与真实机器人执行过程对齐的长时操作视频。为更好地对齐动作与几何信息,研究团队采用双重动作条件:一方面将共 7 维的末端执行器位姿增量和夹爪开合编码为全局标量嵌入;另一方面将末端执行器动作投影到相机平面,并渲染为动作帧,为模型提供显式位姿与运动方向线索。此外,研究团队引入 FramePack 式的历史记忆机制,在控制计算成本的同时,持续追踪接触过程中的几何一致性和物体状态演化。

大规模异构数据上的预训练与少样本微调

为了让 Prophet 具备通用机器人直觉,研究团队在 AgiBot、DROID、LIBERO 以及筛选后的 Open-X 等多源数据上进行统一预训练,覆盖多种机械臂、视角、场景和操作风格。训练时,对坐标系、夹爪语义和动作参数化进行统一建模,避免不同数据源之间的结构冲突。在此基础上,面对新场景、新物体或新任务时,只需百级别真实轨迹,通过 快速且轻量的微调,即可让 Prophet 快速适配,同时保持对符合真实世界物理结果生成能力的延续。



以下两个视频为 Prophet 的交互 demo,通过选择具体动作,生成对应动作的视频:





光流引导的控制一致性评估协议

传统视频生成评估指标(PSNR、SSIM 等)主要衡量画面清晰度和逼真度,却难以判断机器人有没有按预期动作。为此,研究团队提出光流引导的评估协议:在真实视频与 Prophet 生成视频之间计算像素级光流,并对比两组光流之间的一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐。该指标与感知质量互为补充,为在世界模型中开展 RL 提供了更贴近控制需求的反馈信号。

FA-GRPO 与 FlowScale:为流式动作头量身打造的 RL 算法

在策略层面,研究团队面向带 flow-based 动作头的 VLA,这类策略通过多步去噪生成连续动作,内部包含大量中间流步。现有 Flow-GRPO 将每个流步都当作独立动作,既放大了梯度方差,也削弱了与环境反馈之间的对应关系,训练容易不稳定。为此,研究团队做了两点改进:

  • Flow-action-GRPO(FA-GRPO):在动作而不是流步层面构造 PPO 比例,将所有内部流步的对数似然先聚合成单一环境动作的概率,再与优势函数结合。这样不改动策略结构,只重新组织梯度信号,使长时序控制下的信用分配更贴近真实环境反馈。
  • FlowScale:利用噪声调度,为每个流步乘上与噪声尺度相关的权重系数:适度放大高噪声的早期步骤,抑制低噪声但梯度极大的后期步骤,在不改变目标函数的前提下平衡各流步对整体梯度的贡献,显著提升训练稳定性。





结合 Prophet 提供的长视野视频模拟器,VLA 策略在其中用 FA-GRPO 和 FlowScale 反复训练,再迁移到真实机器人上执行,形成「在想象中学,在现实中用」的完整闭环。

Reward model:基于视频 - 语言的任务成功评估

在 ProphRL 中,奖励不再依赖手工设计的几何距离,而是由 视觉–语言奖励模型(Reward model) 直接根据「整条轨迹是否完成任务」给分。具体来说,reward model 以任务文本和整段执行视频为输入,输出一个标量得分,并在一个 batch 内做归一化后,作为整条轨迹上各步的 advantage,送入 FA-GRPO 和 FlowScale。

  • LIBERO 任务:在物理仿真环境中可以直接得到成功 / 失败标签及完成步数。研究团队将每条轨迹渲染成视频,用这些带标签的视频微调 Qwen2.5-VL-7B,得到一个二分类 RM,用于判断任务是否完成,并估计完成时刻,从而做时间掩码。
  • BRIDGE 与真实机器人任务:真实和离线数据上手动标注代价很高,因此研究团队采用 Qwen2.5-VL-72B 作为零样本 reward model。给定任务说明和精心设计的提示词,研究团队从每条轨迹中均匀采样若干帧,请模型做逐步推理并给出「成功 / 失败」判断,多次评估后取多数票作为最终标签,用于驱动在世界模型和真机上的强化学习。

最终,世界模型、VLA 基座模型、奖励模型,通过在线强化学习(FA-GRPO & FlowScale)构成数据闭环,为具身场景落地提供切实可行的解决方案。如下图所示:



实验验证:从基准任务到真实机器人

在实验部分,研究团队围绕三个维度系统评估 ProphRL:

世界模型能力:在 AgiBot、DROID、LIBERO 和 BRIDGE 等多数据集上,预训练的 Prophet 就能在视觉效果和动作一致性上同时取得领先表现,其中 BRIDGE 在预训练阶段是完全未参与的数据集。在 BRIDGE 少样本场景中,经过少量示范的微调后,Prophet 依然可以执行视觉上未出现过的新物体、新组合动作,体现出良好的跨场景、跨物体泛化能力。

生成质量超越 Nvidia 的 Cosmos 与上海智元的 Genie-envisioner:









在世界模型中的 RL 效果:研究团队选取多种 VLA 模型(如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ),在 Prophet 中对每个任务分别进行强化学习训练。对比仅做监督微调,加入 FA-GRPO + FlowScale 后,在多项 benchmark 与真实任务中成功率都有显著提升。





真实机器人上的验证:基于 UR30e 机械臂,研究团队设计了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四个桌面操作任务,覆盖刚体抓取、容器放置和柔性物体拉取等难以精确仿真的场景。将 Prophet 中训练得到的策略迁移到真机后,ProphRL 相比纯监督微调在所有任务的平均成功率上都带来约 24–30% 的成功率提升。



VLA 或者 VLA + SFT 后训练 在做的其实是 imitate 训练数据集,而 世界模型 + RL 能够学习并加强到训练数据中不存在或者弱存在的成功轨迹,如下视频所示:





总的来看,目前机器人策略仍以基于示范的监督微调(SFT)为主,在分布偏移和长时序任务下往往难以保持稳定表现,而强化学习则是提升鲁棒性和适应能力的关键手段。

不过,以 Pi*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈。

ProphRL 以世界模型 Prophet 为核心,先在大规模真实轨迹上学习从动作到未来观测的动力学,再在这一数据驱动的模拟环境中对 VLA 策略执行 RL 优化,最后将策略迁移到真实机器人上进行验证。

这样的设计使得策略改进的主要探索过程可以在世界模型中完成,在兼顾物理一致性的同时减少对真机交互的依赖,并在实验中对多类 VLA 模型中带来了稳定且显著的性能提升,表明「世界模型 + RL」让具身智能在真实场景中落地可期!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
52岁北京炒股冠军罕见发声:洗盘如果洗不掉散户,庄家会怎么办?

52岁北京炒股冠军罕见发声:洗盘如果洗不掉散户,庄家会怎么办?

股经纵横谈
2026-03-20 21:45:04
680家门店的最大粤菜连锁竟然不是广东人开的

680家门店的最大粤菜连锁竟然不是广东人开的

商业弧光
2026-03-22 07:09:18
伊朗发行面值1000万里亚尔的纸币,这是该国历史上面值最大的钞票

伊朗发行面值1000万里亚尔的纸币,这是该国历史上面值最大的钞票

山河路口
2026-03-21 23:19:21
俄高官:欧盟和英国燃料危机迫在眉睫,或将定量配给

俄高官:欧盟和英国燃料危机迫在眉睫,或将定量配给

界面新闻
2026-03-22 16:45:15
美国盟友集体演戏,给伊朗看

美国盟友集体演戏,给伊朗看

虚声
2026-03-21 20:13:25
演员张佳宁自曝,单眼皮因拍戏变不回来:长期贴双眼皮贴导致,没割

演员张佳宁自曝,单眼皮因拍戏变不回来:长期贴双眼皮贴导致,没割

情感大头说说
2026-03-22 15:54:04
决裂倒计时!曼城忍痛甩卖王牌,师徒彻底反目重建在即

决裂倒计时!曼城忍痛甩卖王牌,师徒彻底反目重建在即

澜归序
2026-03-22 07:06:15
“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

胜研集
2026-03-22 08:09:41
明晚(3月23日)油价大涨,今年汽柴油涨超2.43元/升,接近10元时代

明晚(3月23日)油价大涨,今年汽柴油涨超2.43元/升,接近10元时代

油价早知道
2026-03-22 03:21:04
40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

鉴史录
2026-03-22 10:01:56
离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

草莓解说体育
2026-03-22 06:41:30
惠州一货车燃爆致仓库倒塌,2人死亡

惠州一货车燃爆致仓库倒塌,2人死亡

南方都市报
2026-03-22 15:50:07
中国车市投诉榜单第一名!

中国车市投诉榜单第一名!

诗与星空
2026-03-20 08:00:06
以色列空袭黎巴嫩南部多座桥梁

以色列空袭黎巴嫩南部多座桥梁

新华社
2026-03-22 23:32:01
杨德龙:2026年资本市场的投资主线

杨德龙:2026年资本市场的投资主线

德龙财经
2026-03-22 21:15:46
全面断网!伊朗准备大干一场

全面断网!伊朗准备大干一场

十三级台阶
2026-03-21 11:07:58
利息已高达2.5亿镑!阿布出售切尔西的25亿镑仍遭冻结 英政府暴怒

利息已高达2.5亿镑!阿布出售切尔西的25亿镑仍遭冻结 英政府暴怒

风过乡
2026-03-22 08:07:38
哈曼:只有拜仁被皇马淘汰,凯恩才有机会打破莱万的进球纪录

哈曼:只有拜仁被皇马淘汰,凯恩才有机会打破莱万的进球纪录

懂球帝
2026-03-22 06:25:56
男子认48岁女房东当干妈,每周去其家中蹭饭,酿成一场悲剧

男子认48岁女房东当干妈,每周去其家中蹭饭,酿成一场悲剧

晓艾故事汇
2025-09-08 17:00:17
锁定备胎!利物浦物色顶级少帅替代阿隆索,斯洛特基本确定下课

锁定备胎!利物浦物色顶级少帅替代阿隆索,斯洛特基本确定下课

夜白侃球
2026-03-22 23:06:20
2026-03-23 00:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12557文章数 142590关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

本地
手机
旅游
健康
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

旅游要闻

“春约五莲·共享繁花”赏花主题活动在五莲县叩官镇大旺村盛大启幕

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版