LeCun、谢赛宁转发世界模型方案：中关村学院ECCV2026—VLA-JEPA|机器人|鲁棒性|编码器|预训练|真实世界|jepa

LeCun、谢赛宁转发世界模型方案：中关村学院ECCV2026—VLA-JEPA

2026-06-23 19:06:55　来源: 机器之心Pro

天津举报

分享至

依赖于有限机器人数据和大量人类数据，也能让 VLA 模型更稳健吗？

近期，来自中科大、北京中关村学院、上海交通大学，宁波东方理工大学等机构的团队提出的 VLA-JEPA 给出了一个思路：不要再让模型在像素空间里追逐“未来帧”，而是借鉴 Yann LeCun 等人提出的 JEPA 路线，在潜在表征空间中学习和预测世界状态的变化。

作为首个移植到 lerobot 框架的 VLA 和世界模型结合的工作，经官方验证 VLA-JEPA 仅使用 13 条轨迹就可以完成简单的装配任务，并获得 LeCun，谢赛宁在社交平台上的转发关注。

相比逐像素重建，JEPA 式潜空间世界模型更关注场景结构、物体交互和动作导致的状态转移，能够弱化背景、光照、视角变化和摄像机抖动等无关视觉噪声。换句话说，VLA-JEPA 试图让模型从人类视频和机器人演示中学到“动作如何改变世界”，而不是只记住画面里哪些像素发生了变化。

这一思路与 LeCun 等人推动的 JEPA 潜空间预测路线，以及谢赛宁等人在自监督视觉表征学习中的相关探索一脉相承：相比直接重建像素，更关注从上下文中学习可迁移、可泛化的高层表征。

arXiv：https://arxiv.org/abs/2602.10098
代码：https://github.com/ginwind/VLA-JEPA
项目主页：https://ginwind.github.io/VLA-JEPA/
Hugging Face：https://huggingface.co/ginwind/VLA-JEPA

一句话看懂

VLA-JEPA 是一个面向 Vision-Language-Action 模型的 JEPA 式预训练框架。它把人类视频和机器人演示统一到“潜在世界模型”的训练目标中：当前观测经过 VLA 主干得到潜在动作 token，未来帧只通过目标编码器提供监督信号，模型需要在 Latent Space 中预测未来状态。

这套设计试图解决过去 latent action 预训练的核心偏差：模型容易学到像素变化，而不是动作导致的状态转移。尤其在互联网视频或人类演示视频中，镜头移动、背景变化、无关物体运动可能比真正的操作信号更显眼，导致所谓“潜在动作”退化为目标图像的压缩表示。

为什么需要这种方法

Latent Action 方法的必要性

对于 VLA（Vision-Language-Action）模型来说，真实机器人轨迹采集成本高、规模有限、任务覆盖窄，而互联网上的人类视频和无标签操作视频却极其丰富。而 latent action 方法正是希望利用无标签操作视频进行 VLA 预训练。它希望从无动作标签的视频中学习“状态如何变化”的中间表示，再把这种表示迁移到下游机器人控制任务中。换句话说，latent action 是连接大规模视频数据与机器人动作策略的一座桥梁。

理想情况下，latent action 应该捕捉的是“动作相关的状态转移语义”，例如物体被推动、抓取、移动后环境状态如何变化，而不是简单记录画面中哪些像素发生了变化。但 VLA-JEPA 论文在 introduction 中指出，现有 latent-action 预训练方法普遍存在以下四类问题。

问题 1：像素级目标容易让表示偏向外观，而不是动作

许多方法使用未来帧作为监督信号，比如直接预测未来像素，或者把相邻帧之间的变化压缩成一个 latent action。

问题在于，视频中最显著的变化往往不是动作本身，而是纹理、光照、背景、视角等视觉因素。这些因素变化大、容易预测，却和机器人真正需要控制的自由度关系较弱。

因此，模型学到的 latent action 可能更像是“画面变化编码器”，而不是“动作语义表示”。

问题 2：真实世界视频会放大无关运动噪声

在人类视频或互联网视频中，摄像机移动、背景变化、非因果物体运动等噪声非常常见。

这些变化有时比真正由操作引起的状态变化还要明显。如果 latent action 目标主要依赖帧间差异，模型就会倾向于编码这些强视觉信号，例如镜头晃动、背景移动，而不是编码有意义的交互动态。

结果是，latent action 被噪声运动主导，难以服务于机器人控制。

问题 3：信息泄漏会让 latent action 退化

一些 latent-action pipeline 在训练转移模型时，会同时使用当前观测和未来观测，或者允许未来信息影响 action variable 的学习。

这种设计会引入一个捷径：latent action 不需要解释“状态为什么会变”，只需要把未来本身编码进去即可。

这样得到的 latent action 可能在训练损失上表现不错，但语义上是空的。它对拟合训练目标有用，却不一定是可用于控制的动作因素。

问题 4：多阶段训练流程过于复杂

为了缓解上述问题，许多方法采用三阶段甚至更多阶段的训练流程，例如先做表示预训练，再学习或对齐 latent action，最后训练策略模型。

这种 pipeline 增加了工程复杂度，也容易引入阶段之间的不一致。不同阶段的目标函数、数据分布和表示空间可能并不完全匹配，导致方法难以稳定训练，也不利于清晰评估每个模块到底带来了什么收益。

方法：把未来当监督，而不是输入

VLA-JEPA 框架。人类视频阶段使用 latent world modeling 的对齐损失，机器人数据阶段额外加入动作预测损失。

具体而言，VLA-JEPA 采用 Qwen3-VL 作为 VLM 主干，引入可学习的 latent action token 表示相邻状态之间的转移。视频帧由 V-JEPA2 编码器映射到世界状态表示；预测器根据当前状态和 latent action 预测未来 latent state，并与目标编码器得到的未来状态对齐。

在有机器人动作标注的数据上，方法进一步接入基于 flow matching 的动作头，用于生成连续末端执行器轨迹。这样，人类视频负责提供动态知识，机器人轨迹负责把动态知识落到可执行动作上。训练流程也比多阶段 latent-action pipeline 更直接：先 JEPA 预训练，再微调动作头。

实验：

三个仿真基准 + 一个真实机器人环境

LIBERO、LIBERO-Plus、SimplerEnv 与真实 Franka 机器人实验

论文在 LIBERO、LIBERO-Plus、SimplerEnv 和真实 Franka 桌面操作任务上评估模型。预训练阶段使用 Something-Something-v2 中约 22 万个人类视频，以及 DROID 中约 7.6 万条高质量机器人演示轨迹；LIBERO/LIBERO-Plus 微调只使用约 2000 条仿真专家演示；真实世界实验使用三类任务共 100 条演示。

LIBERO&LIBERO-Plus：

分别达到97.2和78.1的平均成功率

在 LIBERO 上，VLA-JEPA 的平均成功率为 97.2，在 Object 和 LIBERO-10 两个 suite 上取得最高结果。更值得注意的是，OpenVLA-OFT、pi0.5 等强基线依赖大量机器人数据，而 VLA-JEPA 试图用更少的训练数据拿到接近甚至更高的平均表现。

在具备多种扰动 OOD 的 LIBERO-Plus benchmark 上，VLA-JEPA 在 7 个扰动维度中有 5 个拿到最好结果，平均成功率 78.1，明显高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。论文作者认为，这说明 latent action 学到的不是单一视觉模板，而是更接近世界状态变化的表示，这也反映出 VLA-JEPA 在鲁棒性上的优势。

SimplerEnv：

分别达到65.2和57.3的平均成功率

SimplerEnv 的结果也给出一个现实提醒：人类视频并不是万能灵药。在若干视觉匹配任务上，去掉人类视频后的模型甚至更高。这表明 VLA-JEPA 的主要价值不是凭空生成新动作技能，而是在高质量机器人数据的基础上增强鲁棒性和稳定性。

真实机器人：学到了失败后的二次抓取

真实 Franka 机器人实验结果

真实世界实验使用 FR3 机械臂、Robotiq 夹爪（2F-85）和三台 D435 摄像头，训练集包含 100 条桌面抓取/放置演示。论文设置了 ID、任务 OOD 和布局 OOD 三类评估。

相较 pi0 与 pi0.5，VLA-JEPA 在真实操作中呈现出一个有意思的现象：当第一次抓取失败后，模型会重新打开夹爪并尝试二次抓取，而对比模型没有稳定出现这一行为。

视频链接：https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA

作者将其归因于人类视频中的重复抓取知识：人类操作中失败后调整再抓的片段更常见，而机器人演示数据通常不会刻意覆盖这种恢复行为。这也是 VLA-JEPA 路线最有报道价值的地方：人类视频不一定直接教会机器人控制，但可能补足现实世界中“如何补救”的常识。

消融：人类视频主要提升稳定性

人类视频比例对 LIBERO-Plus 不同扰动维度成功率的影响。

在人类视频比例实验中，随着人类视频规模上升，LIBERO-Plus 的鲁棒性整体改善。论文的解释是，人类视频更像是在强化模型已有技能库的稳定性，而不是直接引入新的动作执行能力。换句话说，VLA-JEPA 把人类视频从“动作标签替代品”重新定位为“世界动态先验”，同时也使得 VLA 模型具备更高的数据效率。

结语

具身智能的核心，不只是让模型“看懂”世界，而是让它能够理解动作会如何改变世界。对于机器人而言，视觉、语言和动作并不是彼此孤立的模块：语言给出目标，视觉提供状态，动作则通过物理交互改变环境。世界模型的价值，正是在这三者之间建立可预测的动态关系。

VLA-JEPA 的关键意义在于，它没有把人类视频简单当作“缺少动作标签的机器人数据”，而是把它作为学习世界动态的来源。潜在世界模型在这里承担了一个中间层角色：它把原始像素变化压缩为更抽象的状态转移表示，让模型关注“什么变化与动作有关”，而不是被光照、背景、视角、相机运动等无关因素牵着走。

这种潜在空间中的预测目标，也让世界模型更适合与 VLA 结合。相比直接预测未来像素，预测未来 latent state 更接近具身智能真正需要的能力：在当前观测和潜在动作条件下，估计环境接下来会进入什么状态。换句话说，潜在世界模型把“视频中的变化”转化为“可用于控制的动态先验”。

当然，VLA-JEPA 并没有证明人类视频可以替代高质量机器人数据。相反，它更清楚地说明了二者的分工：机器人数据提供可执行的动作 grounding，人类视频和互联网视频则提供更广泛的世界动态经验。未来如果具身智能要继续扩展，关键问题可能不再只是收集更多机器人轨迹，而是如何把大规模视觉世界经验转化为机器人可调用、可预测、可泛化的潜在世界模型。

作者团队及合作单位

VLA-JEPA 依托北京中关村学院“高效通用跨尺度空间智能世界模型”项目完成研究，第一作者为北京中关村学院&中国科学技术大学联培博士生孙景文，上海交通大学&宁波东方理工大学联培博士生张文垚。通讯作者为宁波东方理工大学助理教授、北京中关村学院共建导师金鑫，以及中国科学技术大学教授、北京中关村学院共建导师陈志波。研究团队长期聚焦具身领域世界模型的前沿研究。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.