![]()
依赖于有限机器人数据和大量人类数据,也能让 VLA 模型更稳健吗?
近期,来自中科大、北京中关村学院、上海交通大学,宁波东方理工大学等机构的团队提出的 VLA-JEPA 给出了一个思路:不要再让模型在像素空间里追逐“未来帧”,而是借鉴 Yann LeCun 等人提出的 JEPA 路线,在潜在表征空间中学习和预测世界状态的变化。
作为首个移植到 lerobot 框架的 VLA 和世界模型结合的工作,经官方验证 VLA-JEPA 仅使用 13 条轨迹就可以完成简单的装配任务,并获得 LeCun,谢赛宁在社交平台上的转发关注。
![]()
相比逐像素重建,JEPA 式潜空间世界模型更关注场景结构、物体交互和动作导致的状态转移,能够弱化背景、光照、视角变化和摄像机抖动等无关视觉噪声。换句话说,VLA-JEPA 试图让模型从人类视频和机器人演示中学到“动作如何改变世界”,而不是只记住画面里哪些像素发生了变化。
这一思路与 LeCun 等人推动的 JEPA 潜空间预测路线,以及谢赛宁等人在自监督视觉表征学习中的相关探索一脉相承:相比直接重建像素,更关注从上下文中学习可迁移、可泛化的高层表征。
![]()
- arXiv:https://arxiv.org/abs/2602.10098
- 代码:https://github.com/ginwind/VLA-JEPA
- 项目主页:https://ginwind.github.io/VLA-JEPA/
- Hugging Face:https://huggingface.co/ginwind/VLA-JEPA
一句话看懂
VLA-JEPA 是一个面向 Vision-Language-Action 模型的 JEPA 式预训练框架。它把人类视频和机器人演示统一到“潜在世界模型”的训练目标中:当前观测经过 VLA 主干得到潜在动作 token,未来帧只通过目标编码器提供监督信号,模型需要在 Latent Space 中预测未来状态。
这套设计试图解决过去 latent action 预训练的核心偏差:模型容易学到像素变化,而不是动作导致的状态转移。尤其在互联网视频或人类演示视频中,镜头移动、背景变化、无关物体运动可能比真正的操作信号更显眼,导致所谓“潜在动作”退化为目标图像的压缩表示。
为什么需要这种方法
Latent Action 方法的必要性
对于 VLA(Vision-Language-Action)模型来说,真实机器人轨迹采集成本高、规模有限、任务覆盖窄,而互联网上的人类视频和无标签操作视频却极其丰富。而 latent action 方法正是希望利用无标签操作视频进行 VLA 预训练。它希望从无动作标签的视频中学习“状态如何变化”的中间表示,再把这种表示迁移到下游机器人控制任务中。换句话说,latent action 是连接大规模视频数据与机器人动作策略的一座桥梁。
理想情况下,latent action 应该捕捉的是“动作相关的状态转移语义”,例如物体被推动、抓取、移动后环境状态如何变化,而不是简单记录画面中哪些像素发生了变化。但 VLA-JEPA 论文在 introduction 中指出,现有 latent-action 预训练方法普遍存在以下四类问题。
问题 1:像素级目标容易让表示偏向外观,而不是动作
许多方法使用未来帧作为监督信号,比如直接预测未来像素,或者把相邻帧之间的变化压缩成一个 latent action。
问题在于,视频中最显著的变化往往不是动作本身,而是纹理、光照、背景、视角等视觉因素。这些因素变化大、容易预测,却和机器人真正需要控制的自由度关系较弱。
因此,模型学到的 latent action 可能更像是“画面变化编码器”,而不是“动作语义表示”。
问题 2:真实世界视频会放大无关运动噪声
在人类视频或互联网视频中,摄像机移动、背景变化、非因果物体运动等噪声非常常见。
这些变化有时比真正由操作引起的状态变化还要明显。如果 latent action 目标主要依赖帧间差异,模型就会倾向于编码这些强视觉信号,例如镜头晃动、背景移动,而不是编码有意义的交互动态。
结果是,latent action 被噪声运动主导,难以服务于机器人控制。
问题 3:信息泄漏会让 latent action 退化
一些 latent-action pipeline 在训练转移模型时,会同时使用当前观测和未来观测,或者允许未来信息影响 action variable 的学习。
这种设计会引入一个捷径:latent action 不需要解释“状态为什么会变”,只需要把未来本身编码进去即可。
这样得到的 latent action 可能在训练损失上表现不错,但语义上是空的。它对拟合训练目标有用,却不一定是可用于控制的动作因素。
问题 4:多阶段训练流程过于复杂
为了缓解上述问题,许多方法采用三阶段甚至更多阶段的训练流程,例如先做表示预训练,再学习或对齐 latent action,最后训练策略模型。
这种 pipeline 增加了工程复杂度,也容易引入阶段之间的不一致。不同阶段的目标函数、数据分布和表示空间可能并不完全匹配,导致方法难以稳定训练,也不利于清晰评估每个模块到底带来了什么收益。
方法:把未来当监督,而不是输入
![]()
VLA-JEPA 框架。人类视频阶段使用 latent world modeling 的对齐损失,机器人数据阶段额外加入动作预测损失。
具体而言,VLA-JEPA 采用 Qwen3-VL 作为 VLM 主干,引入可学习的 latent action token 表示相邻状态之间的转移。视频帧由 V-JEPA2 编码器映射到世界状态表示;预测器根据当前状态和 latent action 预测未来 latent state,并与目标编码器得到的未来状态对齐。
在有机器人动作标注的数据上,方法进一步接入基于 flow matching 的动作头,用于生成连续末端执行器轨迹。这样,人类视频负责提供动态知识,机器人轨迹负责把动态知识落到可执行动作上。训练流程也比多阶段 latent-action pipeline 更直接:先 JEPA 预训练,再微调动作头。
实验:
三个仿真基准 + 一个真实机器人环境
![]()
LIBERO、LIBERO-Plus、SimplerEnv 与真实 Franka 机器人实验
论文在 LIBERO、LIBERO-Plus、SimplerEnv 和真实 Franka 桌面操作任务上评估模型。预训练阶段使用 Something-Something-v2 中约 22 万个人类视频,以及 DROID 中约 7.6 万条高质量机器人演示轨迹;LIBERO/LIBERO-Plus 微调只使用约 2000 条仿真专家演示;真实世界实验使用三类任务共 100 条演示。
LIBERO&LIBERO-Plus:
分别达到97.2和78.1的平均成功率
![]()
在 LIBERO 上,VLA-JEPA 的平均成功率为 97.2,在 Object 和 LIBERO-10 两个 suite 上取得最高结果。更值得注意的是,OpenVLA-OFT、pi0.5 等强基线依赖大量机器人数据,而 VLA-JEPA 试图用更少的训练数据拿到接近甚至更高的平均表现。
![]()
在具备多种扰动 OOD 的 LIBERO-Plus benchmark 上,VLA-JEPA 在 7 个扰动维度中有 5 个拿到最好结果,平均成功率 78.1,明显高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。论文作者认为,这说明 latent action 学到的不是单一视觉模板,而是更接近世界状态变化的表示,这也反映出 VLA-JEPA 在鲁棒性上的优势。
SimplerEnv:
分别达到65.2和57.3的平均成功率
![]()
SimplerEnv 的结果也给出一个现实提醒:人类视频并不是万能灵药。在若干视觉匹配任务上,去掉人类视频后的模型甚至更高。这表明 VLA-JEPA 的主要价值不是凭空生成新动作技能,而是在高质量机器人数据的基础上增强鲁棒性和稳定性。
真实机器人:学到了失败后的二次抓取
![]()
真实 Franka 机器人实验结果
真实世界实验使用 FR3 机械臂、Robotiq 夹爪(2F-85)和三台 D435 摄像头,训练集包含 100 条桌面抓取/放置演示。论文设置了 ID、任务 OOD 和布局 OOD 三类评估。
相较 pi0 与 pi0.5,VLA-JEPA 在真实操作中呈现出一个有意思的现象:当第一次抓取失败后,模型会重新打开夹爪并尝试二次抓取,而对比模型没有稳定出现这一行为。
![]()
视频链接:https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA
作者将其归因于人类视频中的重复抓取知识:人类操作中失败后调整再抓的片段更常见,而机器人演示数据通常不会刻意覆盖这种恢复行为。这也是 VLA-JEPA 路线最有报道价值的地方:人类视频不一定直接教会机器人控制,但可能补足现实世界中“如何补救”的常识。
消融:人类视频主要提升稳定性
![]()
人类视频比例对 LIBERO-Plus 不同扰动维度成功率的影响。
在人类视频比例实验中,随着人类视频规模上升,LIBERO-Plus 的鲁棒性整体改善。论文的解释是,人类视频更像是在强化模型已有技能库的稳定性,而不是直接引入新的动作执行能力。换句话说,VLA-JEPA 把人类视频从“动作标签替代品”重新定位为“世界动态先验”,同时也使得 VLA 模型具备更高的数据效率。
结语
具身智能的核心,不只是让模型“看懂”世界,而是让它能够理解动作会如何改变世界。对于机器人而言,视觉、语言和动作并不是彼此孤立的模块:语言给出目标,视觉提供状态,动作则通过物理交互改变环境。世界模型的价值,正是在这三者之间建立可预测的动态关系。
VLA-JEPA 的关键意义在于,它没有把人类视频简单当作“缺少动作标签的机器人数据”,而是把它作为学习世界动态的来源。潜在世界模型在这里承担了一个中间层角色:它把原始像素变化压缩为更抽象的状态转移表示,让模型关注“什么变化与动作有关”,而不是被光照、背景、视角、相机运动等无关因素牵着走。
这种潜在空间中的预测目标,也让世界模型更适合与 VLA 结合。相比直接预测未来像素,预测未来 latent state 更接近具身智能真正需要的能力:在当前观测和潜在动作条件下,估计环境接下来会进入什么状态。换句话说,潜在世界模型把“视频中的变化”转化为“可用于控制的动态先验”。
当然,VLA-JEPA 并没有证明人类视频可以替代高质量机器人数据。相反,它更清楚地说明了二者的分工:机器人数据提供可执行的动作 grounding,人类视频和互联网视频则提供更广泛的世界动态经验。未来如果具身智能要继续扩展,关键问题可能不再只是收集更多机器人轨迹,而是如何把大规模视觉世界经验转化为机器人可调用、可预测、可泛化的潜在世界模型。
作者团队及合作单位
VLA-JEPA 依托北京中关村学院“高效通用跨尺度空间智能世界模型”项目完成研究,第一作者为北京中关村学院&中国科学技术大学联培博士生孙景文,上海交通大学&宁波东方理工大学联培博士生张文垚。通讯作者为宁波东方理工大学助理教授、北京中关村学院共建导师金鑫,以及中国科学技术大学教授、北京中关村学院共建导师陈志波。研究团队长期聚焦具身领域世界模型的前沿研究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.