网易首页 > 网易号 > 正文 申请入驻

LeCun、谢赛宁转发世界模型方案:中关村学院ECCV2026—VLA-JEPA

0
分享至



依赖于有限机器人数据和大量人类数据,也能让 VLA 模型更稳健吗?

近期,来自中科大、北京中关村学院、上海交通大学,宁波东方理工大学等机构的团队提出的 VLA-JEPA 给出了一个思路:不要再让模型在像素空间里追逐“未来帧”,而是借鉴 Yann LeCun 等人提出的 JEPA 路线,在潜在表征空间中学习和预测世界状态的变化。

作为首个移植到 lerobot 框架的 VLA 和世界模型结合的工作,经官方验证 VLA-JEPA 仅使用 13 条轨迹就可以完成简单的装配任务,并获得 LeCun,谢赛宁在社交平台上的转发关注。



相比逐像素重建,JEPA 式潜空间世界模型更关注场景结构、物体交互和动作导致的状态转移,能够弱化背景、光照、视角变化和摄像机抖动等无关视觉噪声。换句话说,VLA-JEPA 试图让模型从人类视频和机器人演示中学到“动作如何改变世界”,而不是只记住画面里哪些像素发生了变化。

这一思路与 LeCun 等人推动的 JEPA 潜空间预测路线,以及谢赛宁等人在自监督视觉表征学习中的相关探索一脉相承:相比直接重建像素,更关注从上下文中学习可迁移、可泛化的高层表征。



  • arXiv:https://arxiv.org/abs/2602.10098
  • 代码:https://github.com/ginwind/VLA-JEPA
  • 项目主页:https://ginwind.github.io/VLA-JEPA/
  • Hugging Face:https://huggingface.co/ginwind/VLA-JEPA

一句话看懂

VLA-JEPA 是一个面向 Vision-Language-Action 模型的 JEPA 式预训练框架。它把人类视频和机器人演示统一到“潜在世界模型”的训练目标中:当前观测经过 VLA 主干得到潜在动作 token,未来帧只通过目标编码器提供监督信号,模型需要在 Latent Space 中预测未来状态。

这套设计试图解决过去 latent action 预训练的核心偏差:模型容易学到像素变化,而不是动作导致的状态转移。尤其在互联网视频或人类演示视频中,镜头移动、背景变化、无关物体运动可能比真正的操作信号更显眼,导致所谓“潜在动作”退化为目标图像的压缩表示。

为什么需要这种方法

Latent Action 方法的必要性

对于 VLA(Vision-Language-Action)模型来说,真实机器人轨迹采集成本高、规模有限、任务覆盖窄,而互联网上的人类视频和无标签操作视频却极其丰富。而 latent action 方法正是希望利用无标签操作视频进行 VLA 预训练。它希望从无动作标签的视频中学习“状态如何变化”的中间表示,再把这种表示迁移到下游机器人控制任务中。换句话说,latent action 是连接大规模视频数据与机器人动作策略的一座桥梁。

理想情况下,latent action 应该捕捉的是“动作相关的状态转移语义”,例如物体被推动、抓取、移动后环境状态如何变化,而不是简单记录画面中哪些像素发生了变化。但 VLA-JEPA 论文在 introduction 中指出,现有 latent-action 预训练方法普遍存在以下四类问题。

问题 1:像素级目标容易让表示偏向外观,而不是动作

许多方法使用未来帧作为监督信号,比如直接预测未来像素,或者把相邻帧之间的变化压缩成一个 latent action。

问题在于,视频中最显著的变化往往不是动作本身,而是纹理、光照、背景、视角等视觉因素。这些因素变化大、容易预测,却和机器人真正需要控制的自由度关系较弱。

因此,模型学到的 latent action 可能更像是“画面变化编码器”,而不是“动作语义表示”。

问题 2:真实世界视频会放大无关运动噪声

在人类视频或互联网视频中,摄像机移动、背景变化、非因果物体运动等噪声非常常见。

这些变化有时比真正由操作引起的状态变化还要明显。如果 latent action 目标主要依赖帧间差异,模型就会倾向于编码这些强视觉信号,例如镜头晃动、背景移动,而不是编码有意义的交互动态。

结果是,latent action 被噪声运动主导,难以服务于机器人控制。

问题 3:信息泄漏会让 latent action 退化

一些 latent-action pipeline 在训练转移模型时,会同时使用当前观测和未来观测,或者允许未来信息影响 action variable 的学习。

这种设计会引入一个捷径:latent action 不需要解释“状态为什么会变”,只需要把未来本身编码进去即可。

这样得到的 latent action 可能在训练损失上表现不错,但语义上是空的。它对拟合训练目标有用,却不一定是可用于控制的动作因素。

问题 4:多阶段训练流程过于复杂

为了缓解上述问题,许多方法采用三阶段甚至更多阶段的训练流程,例如先做表示预训练,再学习或对齐 latent action,最后训练策略模型。

这种 pipeline 增加了工程复杂度,也容易引入阶段之间的不一致。不同阶段的目标函数、数据分布和表示空间可能并不完全匹配,导致方法难以稳定训练,也不利于清晰评估每个模块到底带来了什么收益。

方法:把未来当监督,而不是输入



VLA-JEPA 框架。人类视频阶段使用 latent world modeling 的对齐损失,机器人数据阶段额外加入动作预测损失。

具体而言,VLA-JEPA 采用 Qwen3-VL 作为 VLM 主干,引入可学习的 latent action token 表示相邻状态之间的转移。视频帧由 V-JEPA2 编码器映射到世界状态表示;预测器根据当前状态和 latent action 预测未来 latent state,并与目标编码器得到的未来状态对齐。

在有机器人动作标注的数据上,方法进一步接入基于 flow matching 的动作头,用于生成连续末端执行器轨迹。这样,人类视频负责提供动态知识,机器人轨迹负责把动态知识落到可执行动作上。训练流程也比多阶段 latent-action pipeline 更直接:先 JEPA 预训练,再微调动作头。

实验:

三个仿真基准 + 一个真实机器人环境



LIBERO、LIBERO-Plus、SimplerEnv 与真实 Franka 机器人实验

论文在 LIBERO、LIBERO-Plus、SimplerEnv 和真实 Franka 桌面操作任务上评估模型。预训练阶段使用 Something-Something-v2 中约 22 万个人类视频,以及 DROID 中约 7.6 万条高质量机器人演示轨迹;LIBERO/LIBERO-Plus 微调只使用约 2000 条仿真专家演示;真实世界实验使用三类任务共 100 条演示。

LIBERO&LIBERO-Plus:

分别达到97.2和78.1的平均成功率



在 LIBERO 上,VLA-JEPA 的平均成功率为 97.2,在 Object 和 LIBERO-10 两个 suite 上取得最高结果。更值得注意的是,OpenVLA-OFT、pi0.5 等强基线依赖大量机器人数据,而 VLA-JEPA 试图用更少的训练数据拿到接近甚至更高的平均表现。



在具备多种扰动 OOD 的 LIBERO-Plus benchmark 上,VLA-JEPA 在 7 个扰动维度中有 5 个拿到最好结果,平均成功率 78.1,明显高于 OpenVLA-OFT 的 69.6 和 pi0-Fast 的 61.6。论文作者认为,这说明 latent action 学到的不是单一视觉模板,而是更接近世界状态变化的表示,这也反映出 VLA-JEPA 在鲁棒性上的优势。

SimplerEnv:

分别达到65.2和57.3的平均成功率



SimplerEnv 的结果也给出一个现实提醒:人类视频并不是万能灵药。在若干视觉匹配任务上,去掉人类视频后的模型甚至更高。这表明 VLA-JEPA 的主要价值不是凭空生成新动作技能,而是在高质量机器人数据的基础上增强鲁棒性和稳定性。

真实机器人:学到了失败后的二次抓取



真实 Franka 机器人实验结果

真实世界实验使用 FR3 机械臂、Robotiq 夹爪(2F-85)和三台 D435 摄像头,训练集包含 100 条桌面抓取/放置演示。论文设置了 ID、任务 OOD 和布局 OOD 三类评估。

相较 pi0 与 pi0.5,VLA-JEPA 在真实操作中呈现出一个有意思的现象:当第一次抓取失败后,模型会重新打开夹爪并尝试二次抓取,而对比模型没有稳定出现这一行为。



视频链接:https://mp.weixin.qq.com/s/FV2M9myazol7wzwoBkyaOA

作者将其归因于人类视频中的重复抓取知识:人类操作中失败后调整再抓的片段更常见,而机器人演示数据通常不会刻意覆盖这种恢复行为。这也是 VLA-JEPA 路线最有报道价值的地方:人类视频不一定直接教会机器人控制,但可能补足现实世界中“如何补救”的常识。

消融:人类视频主要提升稳定性



人类视频比例对 LIBERO-Plus 不同扰动维度成功率的影响。

在人类视频比例实验中,随着人类视频规模上升,LIBERO-Plus 的鲁棒性整体改善。论文的解释是,人类视频更像是在强化模型已有技能库的稳定性,而不是直接引入新的动作执行能力。换句话说,VLA-JEPA 把人类视频从“动作标签替代品”重新定位为“世界动态先验”,同时也使得 VLA 模型具备更高的数据效率。

结语

具身智能的核心,不只是让模型“看懂”世界,而是让它能够理解动作会如何改变世界。对于机器人而言,视觉、语言和动作并不是彼此孤立的模块:语言给出目标,视觉提供状态,动作则通过物理交互改变环境。世界模型的价值,正是在这三者之间建立可预测的动态关系。

VLA-JEPA 的关键意义在于,它没有把人类视频简单当作“缺少动作标签的机器人数据”,而是把它作为学习世界动态的来源。潜在世界模型在这里承担了一个中间层角色:它把原始像素变化压缩为更抽象的状态转移表示,让模型关注“什么变化与动作有关”,而不是被光照、背景、视角、相机运动等无关因素牵着走。

这种潜在空间中的预测目标,也让世界模型更适合与 VLA 结合。相比直接预测未来像素,预测未来 latent state 更接近具身智能真正需要的能力:在当前观测和潜在动作条件下,估计环境接下来会进入什么状态。换句话说,潜在世界模型把“视频中的变化”转化为“可用于控制的动态先验”。

当然,VLA-JEPA 并没有证明人类视频可以替代高质量机器人数据。相反,它更清楚地说明了二者的分工:机器人数据提供可执行的动作 grounding,人类视频和互联网视频则提供更广泛的世界动态经验。未来如果具身智能要继续扩展,关键问题可能不再只是收集更多机器人轨迹,而是如何把大规模视觉世界经验转化为机器人可调用、可预测、可泛化的潜在世界模型。

作者团队及合作单位

VLA-JEPA 依托北京中关村学院“高效通用跨尺度空间智能世界模型”项目完成研究,第一作者为北京中关村学院&中国科学技术大学联培博士生孙景文,上海交通大学&宁波东方理工大学联培博士生张文垚。通讯作者为宁波东方理工大学助理教授、北京中关村学院共建导师金鑫,以及中国科学技术大学教授、北京中关村学院共建导师陈志波。研究团队长期聚焦具身领域世界模型的前沿研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
方硕喜出望外,翟晓川再逢春,赵睿得注意点了

方硕喜出望外,翟晓川再逢春,赵睿得注意点了

晚雾空青
2026-06-23 21:05:29
哈工大解剖200名乳腺癌死者,惊讶发现患乳腺癌的人,有5大特点

哈工大解剖200名乳腺癌死者,惊讶发现患乳腺癌的人,有5大特点

医学科普汇
2026-06-22 21:30:10
这辆日本SUV在悄悄改写“长期主义”的规则

这辆日本SUV在悄悄改写“长期主义”的规则

像素与芯片
2026-06-21 00:31:35
杜甫成都草堂、王安石半山园、李渔芥子园,古代文人如何安居?

杜甫成都草堂、王安石半山园、李渔芥子园,古代文人如何安居?

新京报
2026-06-22 21:10:15
原来他俩已离婚9年,一直共同抚养儿女,如今孩子一个比一个争气

原来他俩已离婚9年,一直共同抚养儿女,如今孩子一个比一个争气

以茶带书
2026-06-22 17:41:20
结婚十年才明白:真正破坏婚姻的,从来不是第三者,而是这三类人

结婚十年才明白:真正破坏婚姻的,从来不是第三者,而是这三类人

木言观
2026-06-23 22:48:52
一条中国新规,让新加坡银行股暴跌!联合早报急了:凭啥拖累我们

一条中国新规,让新加坡银行股暴跌!联合早报急了:凭啥拖累我们

春之寞陌
2026-06-23 00:51:10
声称对标4060实测被3060反杀:这国产显卡凭啥卖485美元

声称对标4060实测被3060反杀:这国产显卡凭啥卖485美元

我是一个粉刷匠2
2026-06-22 00:56:16
2026填志愿最大的坑:全网的家长都在用同一张“标准答案”,扎堆踩踏已经开始

2026填志愿最大的坑:全网的家长都在用同一张“标准答案”,扎堆踩踏已经开始

二宝妈妈谈教育
2026-06-22 11:39:23
“全球最先进机器人”:特斯拉推进Optimus 3量产

“全球最先进机器人”:特斯拉推进Optimus 3量产

IT之家
2026-06-23 12:54:30
中国人最擅长取外号了,网友:这评论区没半小时出不去

中国人最擅长取外号了,网友:这评论区没半小时出不去

另子维爱读史
2026-05-31 08:10:46
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

大风新闻
2026-06-23 12:33:51
恶魔施纯芳被押解回国等待宣判!他的妻子和父母觉得自己很无辜

恶魔施纯芳被押解回国等待宣判!他的妻子和父母觉得自己很无辜

细品名人
2026-06-23 07:22:50
上海交大发现:体内有恶性肿瘤的人,身体或会有6个表现

上海交大发现:体内有恶性肿瘤的人,身体或会有6个表现

芹姐说生活
2026-06-21 22:25:32
国际油价,显著下跌!金价、银价,都跌了

国际油价,显著下跌!金价、银价,都跌了

中国能源网
2026-06-23 10:14:07
网络三大谎言之一:大家一直在试用,WinRAR靠什么活了31年?

网络三大谎言之一:大家一直在试用,WinRAR靠什么活了31年?

闻识
2026-06-02 00:57:17
女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

蝴蝶花雨话教育
2026-06-06 00:05:36
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秋别离
2026-06-13 15:50:00
江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

娱乐洞察点点
2026-06-23 18:03:55
2026-06-23 23:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13339文章数 142678关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

看到热搜新闻查了下自己 男子结婚8年发现3娃均非亲生

头条要闻

看到热搜新闻查了下自己 男子结婚8年发现3娃均非亲生

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

时尚
艺术
亲子
教育
军事航空

除了玛丽珍、薄底鞋,今年最火的鞋子就是它了

艺术要闻

大连世界级地标!2026夏季达沃斯主会场——“钢铁贝壳”

亲子要闻

雯雯弄坏了豌豆的气球,慌张地把气球藏到身后,豌豆问起来...

教育要闻

孩子是否优秀,90%取决于爸爸

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版