网易首页 > 网易号 > 正文 申请入驻

碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架

0
分享至

张家辉,复旦大学大数据学院博士三年级学生,研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化学习后训练,4D-VLA (NeurIPS 25) 第一作者。黄泽,复旦大学大数据学院博士三年级学生,主要从事机器人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。

张力,复旦大学大数据学院教授,上海创智学院全时导师,担任本论文的通讯作者。主页:https://lzrobots.github.io

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

然而,当前大多数 VLA 仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败。强化学习(RL)从回报信号出发直接优化任务成功率,按理应当能够缓解这一目标错配问题,但在真实机器人上开展在线 RL 成本高昂,并行执行受限,还伴随大量重置与标注开销;以 π*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈(需要一直有人类介入,一旦出现错误轨迹就人类接管操作,记录相应的数据);另一方面,基于传统物理引擎(MuJoCo、Isaac sim)的强化学习又难以同时兼顾逼真度、场景多样性与工程可用性。

针对上述问题,研究团队提出ProphRL 框架采用大规模预训练的世界模型 Prophet 作为「面向真实环境」的视频级模拟器,并配合专为流式动作头设计的在线 RL 算法 Flow-Action-GRPO 与 FlowScale,在虚拟但物理一致的环境中直接对 VLA 策略进行强化学习优化,再将优化后的策略部署到真实机器人上。如此,策略改进的主要探索过程可以在世界模型中完成,在兼顾物理可信度的同时显著降低真实交互成本,为大模型 VLA 的实际落地提供了更可行的技术路径。如图所示:

实验结果显示,ProphRL在多个公开基准上为各类 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)带来 5–17% 的成功率提升,在真实机器人实验中进一步取得 24–30% 的大幅度成功率提升

  • 论文地址:https://arxiv.org/pdf/2511.20633
  • 项目主页:https://logosroboticsgroup.github.io/ProphRL

研究背景

模仿学习的长期回报错配

近年的工作表明,VLA 在自然语言指令和视觉观测的驱动下,已经可以完成台面整理、物体抓取、工具操作等多步任务。但绝大多数方法仍依赖行为克隆式监督训练,只关心轨迹像不像示范,并未真正对齐任务最终是否成功。因此,模型在训练分布附近表现良好,一旦场景略有变化或操作链条变长,就容易因误差累积而导致失败。

真实机器人上做在线 RL 很难规模化

从原理上看,为 VLA 叠加一个 RL 模块,让策略通过在线交互从成功或失败中学习,是缓解上述错配的自然途径。但在真实机器人上实践 RL 成本极高:每次试验都消耗时间和硬件寿命,需要严格的安全防护和人工监控,多机器人并行基础设施投入也非常大,许多精细任务还依赖人工重置与干预。综合来看,直接在真机上大规模跑 RL 并不现实。

传统物理仿真器的局限

另一条路线是依托 MuJoCo、Isaac sim 等物理引擎,在仿真环境中完成 RL,再做 sim-to-real 迁移。然而,对以 RGB 图像为输入的 VLA 而言,要搭建一个同时兼顾视觉逼真度、接触动力学精度和物体多样性的仿真场景,工程成本极高,且仍难以准确覆盖如布料折叠、纸巾拉取等复杂任务。这使得基于传统仿真器的大规模 VLA 后训练在实际中难以落地。

数据驱动世界模型的机会与不足

近年来,数据驱动世界模型开始在机器人领域兴起:给定初始图像和底层机械臂动作指令,模型可以预测未来机械臂操作视频,从而在「想象空间」里让策略反复练习。这类方法天然与 VLA 的视觉接口兼容,有望成为连接 RL 与真实世界的新桥梁。但现有世界模型通常局限于单场景或单任务,跨数据集、跨机器人形态的泛化能力有限;与 VLA 结合时,世界模型也多被当作简单的数据增强来支撑 SFT,而尚未形成一个可迁移、可适配、能够真正支撑 RL 的通用模拟器

ProphRL :基于世界模型的在线强化学习

Prophet:大规模预训练的动作到视频世界模型

研究团队构建的世界模型 Prophet,目标是在统一接口下学习从动作序列到未来操作视频的映射。其核心结构是视频扩散模型,在推理时输入历史帧、当前参考帧,以及未来一段时间的动作序列,输出与真实机器人执行过程对齐的长时操作视频。为更好地对齐动作与几何信息,研究团队采用双重动作条件:一方面将共 7 维的末端执行器位姿增量和夹爪开合编码为全局标量嵌入;另一方面将末端执行器动作投影到相机平面,并渲染为动作帧,为模型提供显式位姿与运动方向线索。此外,研究团队引入 FramePack 式的历史记忆机制,在控制计算成本的同时,持续追踪接触过程中的几何一致性和物体状态演化。

大规模异构数据上的预训练与少样本微调

为了让 Prophet 具备通用机器人直觉,研究团队在 AgiBot、DROID、LIBERO 以及筛选后的 Open-X 等多源数据上进行统一预训练,覆盖多种机械臂、视角、场景和操作风格。训练时,对坐标系、夹爪语义和动作参数化进行统一建模,避免不同数据源之间的结构冲突。在此基础上,面对新场景、新物体或新任务时,只需百级别真实轨迹,通过 快速且轻量的微调,即可让 Prophet 快速适配,同时保持对符合真实世界物理结果生成能力的延续。

以下两个视频为 Prophet 的交互 demo,通过选择具体动作,生成对应动作的视频:

光流引导的控制一致性评估协议

传统视频生成评估指标(PSNR、SSIM 等)主要衡量画面清晰度和逼真度,却难以判断机器人有没有按预期动作。为此,研究团队提出光流引导的评估协议:在真实视频与 Prophet 生成视频之间计算像素级光流,并对比两组光流之间的一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐。该指标与感知质量互为补充,为在世界模型中开展 RL 提供了更贴近控制需求的反馈信号。

FA-GRPO 与 FlowScale:为流式动作头量身打造的 RL 算法

在策略层面,研究团队面向带 flow-based 动作头的 VLA,这类策略通过多步去噪生成连续动作,内部包含大量中间流步。现有 Flow-GRPO 将每个流步都当作独立动作,既放大了梯度方差,也削弱了与环境反馈之间的对应关系,训练容易不稳定。为此,研究团队做了两点改进:

  • Flow-action-GRPO(FA-GRPO):在动作而不是流步层面构造 PPO 比例,将所有内部流步的对数似然先聚合成单一环境动作的概率,再与优势函数结合。这样不改动策略结构,只重新组织梯度信号,使长时序控制下的信用分配更贴近真实环境反馈。
  • FlowScale:利用噪声调度,为每个流步乘上与噪声尺度相关的权重系数:适度放大高噪声的早期步骤,抑制低噪声但梯度极大的后期步骤,在不改变目标函数的前提下平衡各流步对整体梯度的贡献,显著提升训练稳定性。

结合 Prophet 提供的长视野视频模拟器,VLA 策略在其中用 FA-GRPO 和 FlowScale 反复训练,再迁移到真实机器人上执行,形成「在想象中学,在现实中用」的完整闭环。

Reward model:基于视频 - 语言的任务成功评估

在 ProphRL 中,奖励不再依赖手工设计的几何距离,而是由 视觉–语言奖励模型(Reward model) 直接根据「整条轨迹是否完成任务」给分。具体来说,reward model 以任务文本和整段执行视频为输入,输出一个标量得分,并在一个 batch 内做归一化后,作为整条轨迹上各步的 advantage,送入 FA-GRPO 和 FlowScale。

  • LIBERO 任务:在物理仿真环境中可以直接得到成功 / 失败标签及完成步数。研究团队将每条轨迹渲染成视频,用这些带标签的视频微调 Qwen2.5-VL-7B,得到一个二分类 RM,用于判断任务是否完成,并估计完成时刻,从而做时间掩码。
  • BRIDGE 与真实机器人任务:真实和离线数据上手动标注代价很高,因此研究团队采用 Qwen2.5-VL-72B 作为零样本 reward model。给定任务说明和精心设计的提示词,研究团队从每条轨迹中均匀采样若干帧,请模型做逐步推理并给出「成功 / 失败」判断,多次评估后取多数票作为最终标签,用于驱动在世界模型和真机上的强化学习。

最终,世界模型、VLA 基座模型、奖励模型,通过在线强化学习(FA-GRPO & FlowScale)构成数据闭环,为具身场景落地提供切实可行的解决方案。如下图所示:

实验验证:从基准任务到真实机器人

在实验部分,研究团队围绕三个维度系统评估 ProphRL:

世界模型能力:在 AgiBot、DROID、LIBERO 和 BRIDGE 等多数据集上,预训练的 Prophet 就能在视觉效果和动作一致性上同时取得领先表现,其中 BRIDGE 在预训练阶段是完全未参与的数据集。在 BRIDGE 少样本场景中,经过少量示范的微调后,Prophet 依然可以执行视觉上未出现过的新物体、新组合动作,体现出良好的跨场景、跨物体泛化能力。

生成质量超越 Nvidia 的 Cosmos 与上海智元的 Genie-envisioner:

在世界模型中的 RL 效果:研究团队选取多种 VLA 模型(如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ),在 Prophet 中对每个任务分别进行强化学习训练。对比仅做监督微调,加入 FA-GRPO + FlowScale 后,在多项 benchmark 与真实任务中成功率都有显著提升。

真实机器人上的验证:基于 UR30e 机械臂,研究团队设计了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四个桌面操作任务,覆盖刚体抓取、容器放置和柔性物体拉取等难以精确仿真的场景。将 Prophet 中训练得到的策略迁移到真机后,ProphRL 相比纯监督微调在所有任务的平均成功率上都带来约 24–30% 的成功率提升。

VLA 或者 VLA + SFT 后训练 在做的其实是 imitate 训练数据集,而 世界模型 + RL 能够学习并加强到训练数据中不存在或者弱存在的成功轨迹,如下视频所示:

总的来看,目前机器人策略仍以基于示范的监督微调(SFT)为主,在分布偏移和长时序任务下往往难以保持稳定表现,而强化学习则是提升鲁棒性和适应能力的关键手段。

不过,以 Pi*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈。

ProphRL 以世界模型 Prophet 为核心,先在大规模真实轨迹上学习从动作到未来观测的动力学,再在这一数据驱动的模拟环境中对 VLA 策略执行 RL 优化,最后将策略迁移到真实机器人上进行验证。

这样的设计使得策略改进的主要探索过程可以在世界模型中完成,在兼顾物理一致性的同时减少对真机交互的依赖,并在实验中对多类 VLA 模型中带来了稳定且显著的性能提升,表明「世界模型 + RL」让具身智能在真实场景中落地可期!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
性感A妹胸部全漏走光!本人幽默回应

性感A妹胸部全漏走光!本人幽默回应

草莓解说体育
2026-06-25 17:55:37
今年夏天太反常!6月不热早晚凉,老话的征兆别不当回事

今年夏天太反常!6月不热早晚凉,老话的征兆别不当回事

三农雷哥
2026-06-24 16:54:34
日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

李健政观察
2026-06-25 11:20:16
靠改造阴森老宅,英国小情侣成了百万网红,却在即将完工前分手:同甘共苦终究是被流量冲了...

靠改造阴森老宅,英国小情侣成了百万网红,却在即将完工前分手:同甘共苦终究是被流量冲了...

悦居英国
2026-06-25 03:27:42
黄金狂跌近30%“转熊”了?专家:以史为鉴,这是下一次狂飙的“前奏”!

黄金狂跌近30%“转熊”了?专家:以史为鉴,这是下一次狂飙的“前奏”!

科创板日报
2026-06-25 16:15:13
左手将!姆巴佩训练中背打孔德后仰跳投命中

左手将!姆巴佩训练中背打孔德后仰跳投命中

懂球帝
2026-06-25 20:22:16
0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

我就是一个说球的
2026-06-25 19:03:20
空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

鳌头财经
2026-06-23 17:41:39
东大人的总体财富正在缩水

东大人的总体财富正在缩水

西楼饮月
2026-06-25 20:12:26
随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

侃球熊弟
2026-06-25 08:04:38
人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

艺鉴在线
2026-06-22 08:20:18
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
审计署抽查60县,平均每个县翻出10个亿问题资金

审计署抽查60县,平均每个县翻出10个亿问题资金

南方都市报
2026-06-25 12:17:33
微信有77万条未读!多名老人被微信群“轰炸”,家属称投诉无门,律师解读

微信有77万条未读!多名老人被微信群“轰炸”,家属称投诉无门,律师解读

潇湘晨报
2026-06-25 21:31:17
夏窗大反转!曼联截胡 1.5 亿世界杯神锋!皇马巴萨争破头反被抢

夏窗大反转!曼联截胡 1.5 亿世界杯神锋!皇马巴萨争破头反被抢

奶盖熊本熊
2026-06-26 02:17:54
医生告诫:一旦确诊颈动脉斑块,6种食物必须戒掉,避免斑块增大

医生告诫:一旦确诊颈动脉斑块,6种食物必须戒掉,避免斑块增大

荆医生科普
2026-06-25 21:40:07
轮到韩国人做算术题了!韩球迷:这3种情况发生其一,我们就出局

轮到韩国人做算术题了!韩球迷:这3种情况发生其一,我们就出局

全景体育V
2026-06-25 16:33:25
16岁女生举报江西财大男学生:被PUA控制,强迫性关系,细节披露

16岁女生举报江西财大男学生:被PUA控制,强迫性关系,细节披露

李晚书
2026-06-25 19:08:55
美军震不震惊不清楚我反正挺震惊

美军震不震惊不清楚我反正挺震惊

阿亮评论
2026-06-25 18:51:44
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
2026-06-26 05:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

本地
教育
旅游
数码
亲子

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

321分上本科,489分却读专科:2026高考分数线三大趋势

旅游要闻

淤泥里挖出铁钟,钟下还压一尊神像,这座老庙藏着春城百年秘密!

数码要闻

徕卡SL3-P全画幅相机发布:售45000元 1.76亿像素超高分辨率

亲子要闻

从“皇室御用”到“配方落后”,丹麦奶粉Arla在中国“失速”?

无障碍浏览 进入关怀版